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WRBLERAR KERE, AMIA OE Be FE AY Be ERRER a. 在 编写 软件 时 ， 大 家 既 
PRA ERRIAK, MAP BVI Se PD. APAS RE EA GIN ZORA i, Python 
编程 语言 恰好 符合 这 么 苛刻 的 要 求 。 

Python 的 执行 效率 仅 比 效率 之 王 CWB AE He, FETA DAT Il Python 也 名 列 三 甲 。 可 以 
说 Python 在 效率 和 简单 之 间 达 到 了 平衡 。 男 外 ，Python 还 是 一 门 腕 水 语言 ， 可 以 将 其 他 编程 
语言 的 优点 融合 在 一 起 ， 达 到 1+1>2 的 效果 。 这 也 是 Python 如 今 使 用 人 数 越 来 越 多 的 原因 。 

Python 语言 上 发展 迅速 ， 在 各 行 各 业 都 发 挥 独特 的 作用 。 在 各 大 企业 、 学 校 、 机 关 都 运行 
着 Python 明星 程序 。 但 就 个 人 而 言 ， 运 用 Python 最 多 的 还 是 网 络 爬 虫 (这 里 的 爬虫 仅 涉 及 从 
网 页 提取 数据 ， 不 涉及 深度 、 广 度 算 法 爬虫 搜索 )。 在 网 络 上 经 音 更 新 的 数据 ， 无 须 每 次 都 打 
开 网 页 浏览 ， 使 用 爬虫 程序 ， 一 键 获取 数据 ， 下 载 保存 后 分 析 。 考 虑 到 Python 爬虫 在 网 络 上 
的 资料 虽 多 , 但 大 多 都 不 成 系统 ,难以 提供 系统 有 效 的 学 习 。 因 此 笔者 抛砖引玉 ， 编写 了 这 本 
AXK Python 网 络 爬 虫 的 书 ， 以 供 读 者 学 习 参 考 。 

Python 简单 易学 ,Python 爬虫 也 不 复杂 。 只 需要 了 解 了 Python 的 基本 操作 即 可 目 行 编写 。 
本 书 中 介绍 了 几 种 不 同类 型 的 Python 爬虫 ， 可 以 针对 不 同情 况 的 站 点 进行 数据 收集 。 


本 书 特色 
@ 附带 全 部 源 代码 


为 了 便于 读者 理解 本 书 内 容 ， 作 者 已 将 全 部 的 源 代码 上 传 到 网 络 , 供 读者 下 载 使 用 。 读 者 
通过 代码 学 习 开 发 思路 ， 精 简 优 化 代码 。 


© 涵盖 了 Linux&Windows 上 模块 的 安装 配置 
本 书包 含 了 Python 模块 源 的 配置 、 模 块 的 安装 ， 以 及 第 用 IDE 的 使 用 。 
@ 实战 实例 


通过 第 用 的 实例 ， 详 细 说 明 网 络 爬 虫 的 编写 过 程 。 


Python 网 络 仆 虫 实战 
本 书 结 构 


本 书 共 8 章 ， 前 面 4 章 人 简单 地 介绍 了 Python 的 基本 用 法 和 简单 Python 程序 的 编写 。 第 5 
草 的 Scrapy 仆 虫 框架 主要 针对 一 般 无 须 登录 的 网 站 ,在 爬 取 大 量 数据 时 使 用 Scrapy 会 很 方便 。 
第 6 草 的 Beautiful Soup 爬虫 可 以 算 作 疏 虫 的 “个 人 版 ?>。Beautiful Soup EEE ep xt — +E 
取 数 据 比 较 少 的 ， 结 构 简 单 的 网 站 。 第 7 章 的 Mechanize 模块 ， 主 要 功能 是 模拟 浏览 器 。 它 的 
作用 主要 是 针对 那些 需要 登录 验证 的 网 站 。 第 8 章 的 Selenium 模块 ， 主 要 功能 也 是 模拟 浏览 
器 ， 它 的 作用 主要 是 针对 JavaScript 返回 数据 的 网 站 。 
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为 什么 选择 Python K 5 ZS NE ? 

众所周知 Python 的 速度 并 不 是 最 快 的 ， 比 不 上 Java， 比 不 上 C++， 更 比 不 上 传说 中 的 速 
度 效率 之 王 C 了 。 学 习 资 料 的 完备 也 不 在 三 甲 之 内 ， 市 面 上 讲解 C&C++ 的 书籍 绝对 是 
Python 的 几 倍 甚至 几 十 倍 。 使 用 的 人 数 也 不 是 最 多 ， 比 不 上 Java, C Ctt. 

那么 ， 为 什么 会 选择 Python? 

首先 是 它 人 简单 易学 。 简 单 到 没有 学 过 任何 编程 语言 的 人 稍微 看 下 资料 ， 再 看 几 个 示例 惑 
可 以 编写 出 可 用 的 程序 ， 其 次 它 是 一 门 解释 型 编程 语言 ， 编 写 完毕 后 可 直接 执行 ， 无 须 编 
Mt, AML Bug 后 立即 修改 ， 省 下 了 无 数 的 编译 时 间 ; 还 有 它 的 代码 重用 性 高 ， 可 以 把 包含 某 
个 功能 的 程序 当成 模块 代入 其 他 程序 中 使 用 ， 因 而 Python 的 模块 库 庞 大 到 念 怖 ， 几 乎 是 无 所 
不 包 ; 最 后 就 是 因为 它 的 跨 平 台 性 ， 几 乎 所 有 的 Python 程序 ， 都 可 以 不 加 修改 地 运行 在 不 同 
的 操作 平台 ， 都 能 得 到 同样 的 结果 。 这 么 多 的 优点 都 集中 在 这 个 语言 中 ， 因 此 最 好 的 选择 就 
是 Python. 


Python 简介 


了 解 一 门 语 言 ， 我 们 先 从 它 的 历史 说 起 。Python 的 应 用 越 来 越 广泛 ， 它 最 初 是 用 来 做 什 
么 用 的 ， 之 后 又 如 何 发 展 的 ， 了 解 这 些 ， 我 们 束 更 能 了 解 Python. 


1.1.1 Python 的 历史 由 来 

Python 是 一 种 开源 的 面 回 对 象 的 脚本 语言 ， 它 起 源 于 1989 ER, iF, CWI BiR 
特 丹 国家 数学 和 计算 机 科学 研究 所 ) 的 研究 员 Guido van Rossum 需要 一 种 高 级 脚本 编程 语 
言 ， 为 其 研究 小 组 的 Amoeba 分 布 式 操作 系统 执行 管理 任务 。 为 创建 新 语言 ， 他 从 高 级 数学 
语言 ABC (ALL BASIC CODE) 汲取 了 大 量 语法 ， 并 从 系统 编程 语言 Modula-3 借鉴 了 错误 
处 理 机 制 。Van Rossum 把 这 种 新 的 语言 命名 为 Python CK) 一 一 来 源 于 BBC 当时 正在 
热 播 的 喜剧 连续 剧 Monty Python。 

ABC 是 由 Guido 参加 设计 的 一 种 教学 语言 。 就 Guido 本 人 看 来 ，ABC 这 种 语言 非常 优 
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美和 强大 ， 是 专门 为 非 专 业 程 序 员 设计 的 。 但 是 ABC 语言 并 没有 成 功 ， 究 其 原因 ，Guido 认 
为 是 非 开 放 造 成 的 。Guido 决心 在 Python 中 避免 这 一 错误 。 同 时 ， 他 还 想 实 现在 ABC 中 内 
现 过 但 未 曾 实 现 的 东西 。 

就 这 样 ，Python Æ Guido 手中 诞生 了 。 可 以 说 ，Python 是 从 ABC 发 展 起 来 ， 并 且 结 合 
Į Unix shell 和 C 的 习惯 。Python WARIS GPL (GNU General Public License) 协议 。 所 
以 任何 个 人 用 户 都 可 以 免费 使 用 。 


1.1.2 Python 的 现状 


Python 于 1991 年 初 公 开发 行 ， 由 于 功能 强大 和 采用 开源 方式 发 行 ，Python 发 展 得 很 
快 ， 用 户 越 来 越 多 ， 形 成 了 一 个 强大 的 社区 力量 。2001 年 ，Python 的 核心 开发 团队 移师 
Digital Creations 公司 ， 该 公司 是 Zope (MH Python 编写 的 Web 应 用 服务 器 ) 的 创始 者 。 
大 家 可 到 http:/www.python.org/ 上 了 人 解 最 新 的 Python 动态 和 资料 。 

如 今 ，Python 已 经 成 为 最 受 欢 迎 的 程序 设计 语言 之 一 。2011 年 1 月 ， 它 被 TIOBE 编程 
语言 排行 榜 评 为 2010 年 度 语言 。 自 从 2004 年 以 后 ，Python 的 使 用 率 是 呈 线 性 增长 。 


1.1.3 Python 的 应 用 
Python 应 用 广泛 ， 特 别 适 用 与 以 下 几 个 方面 。 


系统 编程 : 提供 API (Application Programming Interface， 应 用 程序 编程 接口 ) fé 
方便 地 进行 系统 维护 和 管理 ，Linux 下 标志 性 语言 之 一 ， 是 很 多 系统 管理 员 理 想 的 
编程 工具 。 

图 形 处 理 : 有 PIL、Tkinter 等 图 形 库 支持 ， 能 方便 进行 图 形 处 理 。 

数学 处 理 : NumPy 扩展 提供 大 量 与 许多 标准 数学 库 的 接口 。 

文本 处 理 : Python 提供 的 re 模块 能 支持 正则 表达 式 ， 还 提供 SGML. XML 分 析 模 
块 ， 许 多 程序 员 利 用 Python 进行 XML 程序 的 开发 。 

数据 库 编 程 : 程序 员 可 通过 遵循 Python DB-API (数据 库 应 用 程序 编程 接口 ) 规范 
的 模块 与 Microsoft SQL Server. Oracle. Sybase. DB2. MySQL. SQLite 等 数据 库 
通信 。 了 Python 自 带 有 一 个 Gadfly 模块 ， 提 供 了 一 个 完整 的 SQL 环境 。 

网 络 编程 : 提供 丰富 的 模块 支持 sockets 编程 ， 能 方便 快速 地 开发 分 布 式 应 用 程序 。 
很 多 大 规模 软件 开发 计划 ， 例 如 Zope. Mnet A BitTorrent. Google 都 在 广泛 地 使 用 
Ca 

Web 编程 : 应 用 的 开发 语言 ， 支 持 最 新 的 XML 技术 。 

多 媒体 应 用 : Python 的 PyOpenGL 模块 封装 了 OpenGL 应 用 程序 编程 接口 ， 能 进行 
二 维和 三 维 图 像 处 理 。PyGame 模块 可 用 于 编写 游戏 软件 。 

PYMO 引擎 : PYMO 全 称 为 Python Memories Off， 是 一 款 运 行 于 Symbian S60V3、 
Symbian3 、S60V5 、Symbian3 、Android 系统 上 的 AVG 游戏 引擎 。 因 其 基于 
Python2.0 平台 开发 ， 并 且 适 用 于 创建 秋之 回忆 (memories off) 风格 的 AVG 游戏 ， 
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故 命名 为 PYMO. 


不 只 个 人 用 户 推 党 Python， 企 业 用 户 也 对 Python 青睐 有 加 ， 以 下 是 明星 企业 的 应 用 
项 目 : 


Reddit: 社交 分 享 网 站 ， 最 早 用 Lip 开发 ， 在 2005 年 转 为 python. 
Dropbox: 文件 分 享 服务 。 

ERA: 图书 、 唱 片 、 电 影 等 文化 产品 的 资料 数据 库 网 站 。 

Django: 鼓励 快速 开发 的 Web 应 用 框架 。 

Fabric: 用 于 管理 成 百 上 千 台 Linux 主机 的 程序 库 。 

EVE: 网 络 游戏 EVE 大 量 使 用 Python 进行 开发 。 

Blender: vA C 与 Python 开发 的 开源 3D 绘图 软件 。 

BitTorrent: bt 下 载 软件 客户 端 。 

Ubuntu Software Center: Ubuntu 9.10 版 本 后 自 带 的 图 形 化 包 管 理 器 。 
YUM: 用 于 RPM 兼容 的 Linux 系统 上 的 包 管 理 器 。 

Civilization IV: 游戏 《文明 4》。 

Battlefield 2: 游戏 《战地 2》 。 

Google: 谷歌 在 很 多 项 目 中 用 python 作为 网 络 应 用 的 后 端 ， 如 Google Groups. 
Gmail. Google Maps 4, Google App Engine 支持 python 作为 开发 语言 。 
NASA: 美国 宇航 局 ， 从 1994 年 起 把 python 作为 主要 开发 语言 。 
Industrial Light & Magic: 工业 光 魔 ， 乔 治 。 户 卡 斯 创立 的 电影 特效 公司 。 
Yahoo! Groups: 雅虎 推出 的 群 组 交流 平台 。 

YouTube: 视频 分 享 网 站 ， 在 某 些 功能 上 使 用 到 python, 

Cinema 4D: 一 套 整 合 3D 模型 、 动 画 与 绘图 的 高 级 三 维 绘图 软件 ， 以 其 高 速 的 运算 
和 强大 的 泻 染 插件 著称 。 

Autodesk Maya: 3D 建 模 软件 ， 支 持 python 作为 脚本 语言 。 

gedit: Linux 平台 的 文本 编辑 器 。 

GIMP: Linux 平台 的 图 像 处 理 软件 。 

Minecraft: Pi Edition: 游戏 《Minecraft》 的 树 每 派 版 本 。 

MySQL Workbench: 可 视 化 数据 库 管 理工 具 。 

Digg: 社交 新 闻 分 享 网 站 。 

Mozilla: 为 支持 和 领导 开源 的 Mozilla 项 目 而 设立 的 一 个 非 营 利 组 织 。 
Quora: 社交 问答 网 站 。 

Path: 私密 社交 应 用 。 

Pinterest: 图 片 社 交 分 享 网 站 。 

SlideShare: 幻灯 上 和 存储、 展示 、 分 享 的 网 站 。 

Yelp: 美国 商户 点 评 网 站 。 

Slide: 社交 游戏 /应 用 开发 公司 ， 被 谷歌 收购 。 


还 有 很 多 企业 级 的 应 用 这 里 就 不 一 一 列举 了 。Python 适用 于 不 同 的 场合 、 不 同 的 人 群 ， 


Python 网 络 息 虫 实战 


是 适应 性 非 第 强 的 一 门 语言 。 


Python 开发 环境 配置 


Python 在 PC 三 大 主流 平台 (Windows, Linux 和 OS X) 都 可 使 用 。 在 这 里 只 讲解 
Windows 和 Linux 下 的 开发 环境 配置 。Windows 平台 以 Windows 7 为 例 ，Linux 平台 以 
Debian 8 系统 为 例 。Python 目前 主要 有 两 个 版本 ，Python 2 和 Python 3。 目 前 ，Python 2 的 最 
终 版 本 是 Python 2.7.11, Python 3 的 最 终 版 本 是 Python 3.5.1. Python 3 虽然 功能 更 加 强大 ， 
但 暂时 Python 2 的 使 用 人 数 更 多 ， 本 书 中 全 部 选择 Python 2.7 为 例 。 


1.2.1 Windows #23 Python 


(1) 打开 Chrome 浏览 器 ， 在 地 址 栏 输入 Python 官网 地 址 www.python.org, tup 1-1 所 
P o 
d» C f & Python Software Foundation [US] https://www.python.org 


Python 


æ python’ 


About Downloads Documentation Community Success Stories News Events 


Intuitive Interpretation 


Calculations are simple with Python, and expression syntax ts 
straightforward: the operators +, -, ` and | work as 
expected; parentheses _ can be used for grouping. More 


about simple math functions in Python 3. 


Python is a programming language that lets you work quickly 
and integrate systems more effectively. >>> Learn More 


C) Get Started & Download Docs & Jobs 


Whether you're new to Python source code and installers Documentation for Python's Looking for work or have a Python 


programming or an experienced are available for download for all standard library, along with tutorials related position that you're trying to 
developer, it's easy to learn and use versions! Not sure which version to and guides, are available online. hire for? Our relaunched 
Python use? Check here community-run job board is the 


place to go 
tart with our Beginner's Guide 


1-1 Python 官网 


(2) 单 击 Python 2.7.11, HEA Python 2.7.11 的 下 载 页 面 ， 如 图 1-2 Ara. 
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€ > C fi |G Python Software Foundation [US] https://www.python.org/downloads/release/python-2711/ 


Files 


Version Operating System Description MDS Sum File Size 

Gzipped source tarball Source release 6b6076ec9e93f05dd63e47eb9c15728b 16856409 
XZ compressed source tarball Source release idbcc848b4cd8399aB1L99d000f9f823c 12277476 
Mac OS X 32-bit i386/PPC installer Mac OSX for Mac OS X 10.5 and later 8d563a53b261fc3868c101471442b601 24018001 
Mac OS X 64-bit/32-bit installer Mac OSX for Mac OS X 10.6 and later cacd8b6a05c5a5c010e19f684a0c7 110 22162527 
Windows debug information files windows b5ebe6703d69ee97d1d648d20df6ee55 24359078 
Windows debug information files tor 64-bit binaries Windows 34b329342bTa9ddS58e0f20c6108e72e6 25104550 
Windows help file Windows 0d8044f1da197c8381be0789c2d5cc98 6171837 

Windows x86-64 MSI installer Windows for AMD64/EM64T/x64, not Itanium processors 25acca42662d4b02682eee0df3f3446d 19550208 


Windows x86 MSI installer Windows 241bf8e097ab4e1047d9bb4f59602095 18636800 


1-2 Python F 


(3) 按照 安装 的 Windows 系统 选择 下 载 的 安装 文件 。 示 例 系 统 是 Windows 7 64 位 版 
本 ， 所 以 在 此 下 载 的 是 Windows x86-64 installer. 

(4) 下 载 完 毕 ， 得 到 安装 文件 python-2.7.11.amd64.msi。 双 击 该 文件 图 标 ， 开 始 安装 
Python 2.7， 如 图 1-3 所 示 。 


JẸ Python 2.7.11 (64-bit) Setup | 


Select whether to install Python 2.7.11 
(64-bit) for all users of this computer. 


© Install for all users 
© Install just for me (not available on Windows Vista) 


python 


windows 


1-3 安装 Python 
(5) 单 击 Next 按钮 ， 设 置 Python 安装 路 径 ， 如 图 1-4 所 示 。 


Python 网 络 仆 虫 实战 


期 python 2.7.11 (64-bit) Setup | 


Select Destination Directory 


Please select a directory for the Python 2.7.11 
(64-bit) files. 


A Ek python27 ~ [up|[ New | 


python 


for 


windows 


l-4 设置 Python 安装 路 径 


(6) 选择 或 者 填 入 Python 的 安装 路 径 后 ， 单 击 Next 按钮 ， 进 入 Python 组 件 设置 ， 如 
图 1-5 所 示 。 


-48 Python 2.7.11 (64-bit) Setup I 


— Customize Python 2.7.11 (64-bit) 


Select the way you want features to be installed. 
Click on the icons in the tree below to change the 
way features will be installed. 


~~~ Ev | Register Extensions 
-为 了] Te Tk 

i E v | Documentation 
H- E v | Utility Scripts 


-Br| Test suite 


IEM Add python.exe to Path 


SS will be installed on local hard drive 


Prepend D:\| 38 Entire feature will be installed on local hard drive 
variable. This 


python command pr X Entire feature will be unavailable 


for This feature requires OKB on your hard drive. 


windows 


Disk Usage <Back | Next> |] [Cancel 


1-5 Python 组 件 选 择 


默认 情况 下 Add python.exe to Path 这 个 组 件 是 未 选择 的 ， 它 的 作用 是 将 Python 的 路 径 加 
入 系统 环境 中 。 请 将 它 选 择 上 ， 单 击 Next 按钮 ， 开 始 安装 Python, WA 1-6 Ara. 
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JË Python 2.7.11 (64-bit) Setup emi 


Complete the Python 2.7.11 (64-bit) 
Installer 


Special Windows thanks to: 
Mark Hammond, without whose years of freely 
shared Windows expertise, Python for Windows 


would still be Python for DOS. 


python 
jd Click the Finish button to exit the Installer. 


windows 


1-6 安装 Python 
(7) 单 击 Finish 按钮 ， 整 个 安装 程序 完毕 。 验 证 Python 是 否 安装 成 功 。 单 击 桌 面 左 下 


角 的 “开始 ”菜单 ， 在 地 址 栏 输入 cmd.exe 后 按 Enter 键 ， 打 开 Windows 系统 命令 行程 序 ， 
如 图 1-7 所 示 。 


PD 言 看 更 多 结果 


=o 
ey ¢ 
1-7 打开 系统 命令 行 工具 cmd.exe 
(8) 执行 命令 ， 验 证 Python， 如 图 1-8 所 示 。 


Python WiK E REAR 


C:\Windows\system32\cmd.exe 


好 了 ， 由 此 可 见 Python 已 安装 成 功 ， 并 已 将 路 径 添 加 到 环境 变量 。 单 击 果 面 左下 的 “ 开 
aa” | “Pra kere” XP, Arh Python 2.7 32/8, Hy LAG BI Python 的 菜单 ， 如 图 1-9 所 示 。 


在 安装 Python 的 同时 也 安装 了 Python 自 市 的 IDE——IDLE 和 本 地 的 模块 说 明文 档 。 这 


i -m mod i file i -] [arg] ... 

don’t write .py[co] files on import; also PYTHONDONTWRITEBYTECODE=x 
program passed in as string “(terminates option list? 

debug output from parser; also PYTHONDEBUG=x 

ignore PYTHON* environment variables ‘such as PYTHONPATH> 

print this help message and exit Calso —-he lp?» 

inspect interactively after running script; forces a prompt even 
if stdin does not appear to be a terminal; also PYTHONINSPECT =x 
run library module as a script (terminates option list?» 

optimize generated bytecode slightly; also PYTHONOPTIMIZE=x 

remove doc-strings in addition to the -0 optimizations 

use a pseudo-random salt to make hash) values of various types be 
unpredictable between separate invocations of the interpreter, as 
a defense against denial-of-service attacks 

division options: —Qold <default>, —Qwarn,. —Qwarnall,. —Qnew 

don’t add user site directory to sys.path; also PYTHONNOUSERSITE 
don’t imply ’import site’ on initialization 


1-8 验证 Python 


© Google Chrome 

@ Internet Explorer (64 位 ) 
@ Internet Explorer 

起 Windows Anytime Upgrade 
Windows Media Player 

Ef Windows Update 

E Windows SRS 

A XPS Viewer 


计算 机 
œ IDLE (Python GUI) 


? Module Docs 控制 面板 
2 Python (command line) 
E? Python Manuals 设备 和 打印 机 


j= Uninstall Python 


默认 程序 


1-9 Python 2.7 菜单 


个 文档 的 说 明 很 详细 ， 一 般 只 用 看 这 个 文档 就 足够 了 。 


至 此 Python GÆ Windows 上 安 闭 验证 成 功 ， 可 以 居 快 地 使 用 Python 了 。 
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1.2.2 Windows 下 安装 配置 pip 


上 文中 说 过 ，Python 有 几乎 无 限 的 第 三 方 模 块 。 如 何 安 装 这 些 第 三 方 模块 呢 ? AS 
得 不 说 到 easy install 和 pip 了 。 

easy install 和 pip 都 是 Python 的 模块 安装 工具 ， 有 点 类 似 于 Debian 系统 的 apt-get, 
Fedora 系统 中 的 yum， 或 者 是 Windows 系统 中 的 QQ 软件 官 理 占 ， 都 是 一 键 安装 软件 工具 ， 
所 不 同 的 是 它们 只 负责 安装 Python 模块 。 老 版 本 中 的 Python 只 有 easy install. pip 可 以 认为 
是 easy_install 的 高 级 版 本 ， 所 以 pip 和 easy_install 任 选 其 一 都 可 以 ， 个 人 建议 使 用 pip。 在 
安装 Python 时 已 经 选择 了 pip 组 件 〈 如 图 1-5 所 示 ) ， 就 无 须 再 次 安装 pip 了， 直接 开 始 配 
管 即 可 。 

因为 pip 的 服务 器 ， 也 束 是 安装 源 在 国外 ， 基 于 国内 粳 糕 的 网 络 环境 ， 使 用 pip 安装 
python 第 三 方 模块 将 是 一 个 很 痛 将 的 过 程 。 好 在 还 有 变通 的 方法 ， 在 国内 也 有 pip 的 镜像 
源 。 只 需要 在 pip 的 配置 文件 中 将 pip 的 安装 源 指 问 国内 的 服务 上 右 ， 这 个 问题 就 解决 了 。 

根据 pip 的 指南 ，Windows 中 pip 的 配置 文件 是 %HOME%/pip/pip.ini (具体 到 当前 环 
Ki, Windows 的 当前 用 户 是 king， 所 以 配置 文件 位 置 就 是 C:\Users\king\pip\pip.ini) . Bits 
况 下 pip 文件 夹 和 pip.ini 文件 都 未 被 创建 ， 需 要 目 行 创建 。 按 照 指 南 创 建 好 文件 夹 和 文件 
后 ， 修 改 pip.ini 文件 ， 如 图 1-10 所 示 。 


修改 日 期 =e 


2015/11/29 19:10 Bees 


Neo elds E ee fake Thus toni com/simple 


1-10 修改 pip.ini 
图 1-10 中 准备 了 3 个 pip 源 ， 任 选 其 一 都 可 以 。 选 择 的 方法 就 是 在 不 再 要 的 源 地 址 前 面 
加 上 # 符 号 。 下 面 来 验证 一 下 修改 源 地 址 是 否 成 功 ， 执 行 命令 : 
python -m pip install -upgrade pip 


此 命令 的 作用 是 更 新 pip 源 ， 结 果 如 图 1-11 所 示 。 


C:\Windows\system32\cmd.exe 


=: Wsers\king>python -m pip install —--upgrade pip 
pllecting pip 


Down loading pac kages/9c/32/064ce8852eG8a127F B7 


£358b715615 76 5-8 .1.2—-py2.py3—-none-any.whl ¢(1.2MB 


1 417kB 656kB/s eta 8:08:02 
i 421kB 871kB/s eta 0:00:01 


l-11 更 新 pip W 


Python MiK BR KAR 


可 以 看 出 ， 配 置 文件 中 的 新 源 已 经 起 作用 了 。 测 试 一 下 pip。 单 击 果 面 左 下 角 的 “ 开 
始 ” 菜 单 ， 在 地 址 栏 中 输入 cmd.exe 后 按 Enter 键 ， 打 开 Windows 系统 命令 行程 序 。 执 行 命 
令 ， 如 图 1-12 Pra. 


C:\Windows\system32\cmd.exe So 
C: Users \king>pip -U 
p 8.1. rom d:\python2?\lib\site-packages “python 2.‘7> 


sage: 
pip <command? [options ] 


Install packages. 

Download packages. 

Uninstall packages. 

Output installed packages in requirements format. 

List installed packages. 

Show information about installed packages. 

Search PyPI for packages. 

Build wheels from your requirements. 

Compute hashes of package archives. 
completion A helper command used for command completion 

lp Show help for commands. 


neral Options: 

-h, —he lp Show help. 

—isolated Run pip in an isolated mode, ignoring 
environment variables and user configuration. 


1-12 测试 pip 


到 此 pip 已 完全 配置 完毕 。 


1.2.3 Linux 下 安装 Python 


即使 同一 个 版 本 的 Linux， 也 因为 不 同 的 喝 面 环境 而 变 得 复杂 起 来 。 丰 蜗 的 软件 ， 是 
Linux 的 成 功 之 处 。 没 有 统一 的 标准 ， 却 是 Linux 不 能 做 大 做 强 的 关键 所 在 。 为 避免 桌面 环 
境 的 差异 ， 这 里 统一 使 用 Putty 来 连接 Linux。 对 于 Python 而 言 ， 任 意 版 本 的 Linux 都 没有 任 
何 的 区 别 。 这 里 演示 用 的 Linux 系统 为 Debian 8.0, IP 地 址 为 192.168.2.80。 下 面 ， 先 用 
Putty 连接 这 个 Linux 机 器 。 


(1) 双击 Putty 图 标 ， 打 开 Putty.exe, FHA IP thik AMO, WA) 1-13 Pra. 


Basic options for your PUTTY session 
Specify the destination you want to connect to 
Host Name (or IP address) Port 


192.168.2.80 
onnection type. 
ORaw (Telnet C 〇 )Rlogin @SSH O Seral 
Load, save or delete a stored session 
:i Selection 


Colours 
自 : Connection 


Default Settings | Load 
£460 A 
raspbery | Save 


| Delete | 


Close window on exit 
OAwas © =e @ Only on clean exit 


图 1-13 Putty 连接 设置 
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(2) 单 击 Open 按钮 ， 第 一 次 使 用 Putty 登录 Linux 会 有 一 个 安全 警告 提示 ， 如 图 1-14 


PuTTY Secunty Alert 


The server's host key is not cached in the registry. You 
have no guarantee that the server is the computer you 
think it is. 

The server's rsa2 key fingerprint is: 

ssh-rsa 2048 18:fb:7f:a6:dc:56:29:4e:46:1 c:7 b:afid4:85:a9:43 
If you trust this host, hit Yes to add the key to 


PuTTY's cache and carry on connecting. 

If you want to carry on connecting just once, without 
adding the key to the cache, hit No. 

If you do not trust this host, hit Cancel to abandon the 
connection. 


1-14 Putty 安全 警告 


(3) 单 击 “ 是 (Y)” 按 钮 ， 进 入 了 Linux 的 登录 界面 ， 如 图 1-15 所 示 。 


king@192.168.2.80's password: 


he programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 


1-15 ”登录 Linux 


(4) 输入 用 户 名 和 用 户 密 码 后 (用 户 密 人 码 不 回 显 )， 登 录 到 了 Linux. 


Debian Linux 默认 安装 了 Python 2 和 Python 3 (几乎 所 有 的 Linux 发 行 版 本 都 默认 安装 
J Python). Python 命令 默认 指向 Python 2.7， 验 证 一 下 Python 的 路 径 ， 执 行 命令 : 


执行 的 结果 如 图 1-16 所 示 。 
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学 king@debian8: ~ 


login as: king 
king@192.168.2.80's password: 


The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 
Last login: Wed May 18 11:30:58 2016 from 192.168.2.99 


king@debian&:~$ whereis python 
python: yasr/ Din Dytnone T /Din/python /usr/bin/python3.4m /usr/bin/python3. 


4 /usr/lib/python2.6 /usr/lib/python2.7 /usr/lib/python3.4 /etc/python2.7 /etc/p 
ython /etc/python3.4 /usr/local/lib/python2.7 /usr/local/lib/python3.4 /usr/incl 
ude/python2.7 /usr/share/python /usr/share/man/mani/python.1i.gz 


king@debian8:~$ ls -1 /usr/bin/ hon 
ST, jusr/bin/python -> python2.7 
king@€debian8:~$ 1s -l /usr/bin hon3 
lrwxrwxrwx 1 root root 9 ni 13 01:00 /usr/bin/python3 -> python3.4 


kingêdebian8:~$ [] 


1-16 查看 Python 路 径 
再 来 看 看 Python 的 版 本 信息 ， 执 行 命令 : 


执行 的 结果 如 图 1-17 SAN. 
学 king@debian8: ~ 


see python2 -V 
ython 2.7. 

king@debians:~$ thon3 -V 
———— 


king@debians:~$ || 


1-17 Python 版 本 信息 


从 图 1-17 中 可 以 看 出 ，Linux 上 安装 的 Python 的 版 本 与 官网 上 的 最 新 版 本 (Python 
3.5.1-Python 2.7.11) 是 不 同 的 。 这 是 正 弟 现象 ， 一 般 来 说 Debian Linux 会 使 用 软件 的 最 稳定 
版 本 ， 而 Ubuntu Linux 会 使 用 软件 的 最 新 版 本 。 


1.2.4 Linux 下 安装 配置 pip 

如 同 Windows 中 的 Python 一 样 ，Linux 中 的 Python 同样 需要 一 个 模块 安装 的 管理 工 
具 ， 可 以 是 easy install, HAJ LAGE pip. HREL Be Linux 版 本 并 没有 默认 安装 这 个 管理 工 
H (Debian 可 以 用 apt-get 安装 大 部 分 的 Python 第 三 方 模块 ， 只 有 极 少 数 的 模块 不 能 使 用 
apt-get 安装 ) ， 所 以 得 目 己 安装 它 了 。 

从 Debian Linux 中 安装 pip， 执 行 命令 : 
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执行 结果 如 图 1-18 所 示 。 


root@debian8:~# apt-get install g 

LP 4 TRA TE Ete... FOR 

正在 分 析 软 件 包 的 依赖 关系 树 

正在 读 取 状态 信息 . . . 完成 

下 列 坎 件 包 是 自动 安装 的 并 且 现 在 不 需要 了 : 
libasni-8-heimdal libgssapi3-heimdal libhcrypto4-heimdal 
libheimbaseil-heimdal libheimntlm0-heimdal 1ibhx509-5-heimdal 
libkrbS-26-heimdal librokeni8-heimdal libwind0-heimdal 

使 用 'apt-get autoremove' FHME (EM))- 

将 会 安装 下 列 额 外 的 软件 包 ， 
build-essential dpkg-dev g++ g++-4.9 libalgorithm-diff-perl 
libalgorithm-diff-xs-perl libalgorithm-merge-perl libdpkg-perl 
1ibfile-fcentllock-perl libstdc++-4.9-dev python-cffi python-colorama 
python-cryptography python-distlib python-html5lib python-ndg-httpsclient 
Python-openssl python-ply python-pyasni python-pycparser python-requests 
Python-setuptools python-urllib3 python-wheel 

建议 安装 的 软件 包 : 
debian-keyring gt++-multilib g++-4.9-multilib gcc-4.9-doc libstdc++6-4.9-dbg 
libstdc++-4.9-doc python-dev python-cryptography-doc 
python-cryptography-vectors python-genshi python-openssl-doc 
python-openssil-dbg python-ply-doc doc-base 

推荐 安装 的 软件 包 : 
python-dev-all 

下 列 【 新 】 软 件 包 将 被 安装 ; 
build-essential dpko-dev g++ g++-4.9 libalgorithm-diff-perl 
libalgorithm-diff-xs-perl libalgorithm-merge-perl libdpkg-perl 
libfile-fcntllock-perl libstdc++-4.9-dev python-cffi python-colorama 
Ppython-cryptography python-distlib python-htmlL5lib python-ndg-httpsclient 
Python-openssl python-pip python-ply python-pyasni python-pycparser 
Python-requests python-setuptools python-urllib3 python-wheel 


a ee ee eee ee ee ee ee ee 


RETR 26.6 MB 的 软件 包 。 
解压 缩 后 会 消耗 掉 56.8 MB 的 额外 空间 . 
您 希望 继续 执行 吗 ? [Y/n] 下 


1-18 安装 pip 
输入 su -命令 后 再 输入 系统 root 用 户 的 登录 密码 。 访 命令 的 作用 是 使 用 roo 用 户 登 录 系 


统 ， 并 使 用 root 用 户 的 环境 变量 。apt-get install python-pip 作用 是 使 用 apt-get 命令 安装 
python-pip 这 个 工具 包 。 最 后 输入 y 确认 执行 命令 ， 开 始 安 装 python-pip。 


Linux 下 安装 软件 都 必须 有 root 权限 ， 可 以 直接 转换 成 root 用 户 安装 ， 也 可 以 在 sudoers 
里 添加 用 户 和 权限 。 


安装 python-pip 后 ， 退 出 root HPS, AA pip 版 本 ， 如 图 1-19 Ara. 


学 king@debian8: ~ = 口 


kingĝdebian8:~$ pip -V 
pip 1.5.6 from /usr/lib/python2.7/dist-packages (python 2.7) 
king@debian8:~$ pip -h 


Usage: 
pip <command> [options] 


Commands: 
install Install packages. 
uninstall Uninstall packages. 
freeze Output installed packages in requirements format. 
list List installed packages. 
show Show information about installed packages. 
search Search PyPI for packages. 
wheel Build wheels from your requirements. 
zip DEPRECATED. Zip individual packages. 
unzip DEPRECATED. Unzip individual packages. 
bundle DEPRECATED. Create pybundles. 
help Show help for commands. 


General Options: 


1-19 验证 pip 
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最 后 还 要 将 pip 的 更 新 源 改 成 国内 源 。 根 据 pip 的 指南 ， 在 Linux 下 pip 的 配置 文件 是 


$HOME/.pip/pip.conf， 执 行 命令 : 


执行 结果 如 图 1-20 所 示 。 


gp king@debian8: ~ 
king@debian8:~$ su - 
密码 : 


root@debian&’:~# cd 
:~# pwd 


:~# mkdir .pip 
:~# cd .pip 
:~/ .pip# cat > pip.conf << EOF 


> index-url = https://pypi.mirrors.ustc.edu.cn/simple 
> #index-url = https://pypi.hustunique.com/simple 

> #index-url = https://pypi.douban.com/simple 

> EOF 

root@debian&8:~/.pip# cat pip.conf 

[global] 

index-url = https://pypi.mirrors.ustc.edu.cn/simple 
#index-url = https://pypi.hustunique.com/simple 
#index-url = https://pypi.douban.com/simple 
root@debian&8:~/.pip# exit 

注销 


king@debians:~$ |] 


1-20 ”修改 pip.conf 


验证 一 下 修改 源 地 址 是 否 成 功 ， 执 行 命令 : 


结果 如 图 1-21 所 示 。 


第 1 Python 环境 配置 


a king@debian8: ~ 一 口 


al su 一 A 


GA aaa ~# python -m pip ing i 
Downloading/unpacking pip from packages/9c/32/0 
04ce0852e0a127£f07f358b7150157632737/99bd7/989 = m, 1.2-py2.py3-no 
ne-any .whl#md5=0570520434c5b600d89ec95393b2650b 

Downloading pip-8.1.2-py2.py3-none-any.whl (1.2MB): 1.2MB downloaded 
Installing collected packages: pip 

Found existing installation: pip 1.5.6 

Not uninstalling pip at /usr/lib/python2.7/dist-packages, owned by OS 

Successfully installed pip 
Cleaning up... 
root@debian&8:~# exit 
í 
king@debiané:~$ || 


1-21 更 新 pip W 
从 图 1-21 可 以 看 出 pip 源 已 经 开始 起 作用 了 。 下 面 来 测试 一 下 pip, WB 1-22 Ara. 


K ng i iang pas 
ee ~$ ne -V 
. SN 5/ python2.7/dist-packages (python 2.7) 


Usage: 
pip <command> [options] 


no such option: -H 

king@debian&:~$ clear 

king@debian8:~$ pip -V 

pip 1.5.6 from /usr/lib/python2.7/dist-packages (python 2.7) 


king@debian&:~$ pip -h 
Usage: 


pip <command> [options] 


Install packages. 
uninstall Uninstall packages. 
freeze Output installed packages in requirements format. 
list List installed packages. 
show Show information about installed packages. 
search Search PyPI for packages. 


1-22 测试 pip 


到 此 pip 已 完全 配置 完毕 。 和 Windows 下 的 pip 不 同 ，Linux 下 的 pip 可 以 用 root 安装 模 
块 ， 也 可 以 使 用 一 般 用 户 来 安 状 模块 。 推 荐 使 用 root 用 户 来 安装 ， 因 为 有 些 模块 安装 需要 
root 特权 ，root 安装 的 模块 一 般 用 户 都 可 以 使 用 。 


1.2.5 ”永远 的 开始 : hello world 


似乎 所 有 的 编程 语言 第 一 个 程序 都 是 hello world. Python 也 不 能 免 俗 ， 下 面 分 别 从 
Windows 和 Linux 下 创建 hello.py。 


1 . Windows 下 创建 hello.py 


C1) HERMA PAN “Fran” | MAET” KP, Mih Python 2.7 X$, Mi IDLE 
(Python GUD 沫 单 ， 如 网 1-23 所 示 。 
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BSI WINUUWS Testa 
A XPS Viewer 

@ 驮 人 程序 

请 ) 点 面 小 工具 库 


@ IDLE (Python GUI) 
œ Module Docs 

® Python (command line) 
[@ Python Manuals 

前 Uninstall Python 

d. WinRAR 

bL 附件 


4 #88 


| REFR p] 


1-23 打开 IDLE 


(2) 此 时 打开 的 是 Python shell 交互 界面 ， 再 单 击 File|New File 菜单 ， 如 图 1-24 Pra. 
[% Python 2.7.11 Shell Ls | © je 


Recent Files 
Class Browser At+C 
Path Browser 


Save Ctrlts 
Save As... Ctrlt+Shi £tt+S 
Save Copy As... Altt+Shift+sS 


Print Window CtrltP 


Close ALtt+F4 
Exit Ctrl+Q 


1-24 打开 IDE 


(3) H IDLE 的 IDE 打开 了 一 个 新 文件 ， 在 此 新 文件 中 编辑 hello.py， 如 图 1-25 所 示 。 
` Là Python 2.7.11 Shell [ 己 | 回 | X | 


File Edit Shell Debug Options Window Help 


Python 2.7.11 (v2. 7.11:6dib6a68f£775, Dec 5 2015, 20:40:30) [MSC v.1500 64 bit ( < 
AND64)] on win32 

Type “copyright”, “credits” or “license()“ for more information. 

22? 


File Edit Format Run Options Window Help 

#!/usr/bin/env python ~ 
#-*- coding: utf-8 一 一 

__author__ = “hstking hstking@hotmail. com’ 


if _-name__ == *__main__’: 
print “hello world!” 
print u 你 好 ， Python! “. encode ("GBK") 


1-25 编辑 hello.py 


(4) 单 击 该 IDE 的 File|Save As ... 菜 单 ， 将 已 编辑 好 的 代码 保存 ， 如 图 1-26 所 示 。 
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"| @ Python 2.7.11 Shell [三 | 加 | x J 


File Edit Shell Debug Options Window Help 
Python 2.7.11 (v2.7. 11:6d1b6a68f775, Dec 5 2015, 20:40:30) [MSC v. 1500 64 bit ( < 


AMD64)] on win32 
Type “copyright”, “credits” or “license()" for more information. 
>>> 


| & *Untitled* =E > 


Fle| Edit Format Run Options Window Help 
New File CtrltN 
Open... [Ctrl+0 
Open Module... ALttM 
Recent Files 
Class Browser AlttC 
Path Browser 


code (“GBK") 


Save ERGS 


Save As... CtrltShi ft+S 


Save Copy As... AlttShifttS 
Print Window CtrltP 


Close ALtt+F4 
Exit Ctrl+Q 


图 1-26 保存 代码 
(5) 选择 保存 文件 位 置 。 这 里 选择 的 是 保存 到 果 面 ， 文 件 名 为 hello.py， 如 图 1-27 所 


| & Python 2.7.11 Shell lele] 


File Edit Shell Debug Options Window Help 


Python 2.7.11 (v2.7. 11:6d1b6a68f£775, Dec 5 2015, 20:40:30) [MSC v. 1500 64 bit 
AMD64)] on win32 

Type “copyright”, “credits” or “license()" for more information. 

>>> 


| & *Untitled* 


File Edit Format Run Options Window Help 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
__author__ = ’hstking hstking@hotmail. com 


6_ __hain__ 
print “hello world!” 
print u” Rif» Python! “.encode("GBK”) 


RFO: lm 点 面 


网 络 
系统 文件 过 


保存 类 型 (T): Python files (#. py, *. [Python files œŒ. pyp) | 


ERM: om 
取消 


图 1-27 选择 文件 保存 位 置 
(6) 单 击 “保存 ”按钮 ， 将 hello.py REER. $X Shift 按钮 ， 同 时 右 击 果 面 空白 


处 ， 如 图 1-28 所 示 。 
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| & Python 2.7.11 Shell 


File Edit Shell Debug Options Window 上 
hon 2. 7. 11 (v2. 7. 11:6d1b6a68f£775, Dec 


Pyt 
AND64)] on win32 
Type “copyright”, “credits” or “license()‘ 


>>> 
Là hello.py - C:/Users/king/Desktop/hello.py (2.7.11 
File Edit Format Run Options Window Hı 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 


__author__ = ’hstking hstking@hotmail. com 
if _name_ == *__main_’: 
print “hello world!” 


print u” RAF» Python! “. encode ("GBK") 


1-28 打开 Windows 命令 行 工 具 
(7) 单 击 “在 此 处 打开 命令 窗口 ”， 打 开 了 命令 行 工 具 ， 执 行 命令 : 


执行 结果 如 图 1-29 所 示 。 


| & Python 2.7.11 Shell 
File Edit Shell Debug Options Window Help 
Python 2.7.11 (v2. 7.11:6dlb6a68f775, Dec 5 2015, 20:40:30) [MSC v. 1500 64 bit ( < 


AMD64))] on win32 
Type “copyright”, “credits” or “license()“ for more information. 
>> 


#!/usr/bin/env python 
#-*- coding: utf-8 一 # 一 
__author__ = ‘hstking hstking@hotmail. com’ 


=”. we 
print “hello wor 
print u” 你 好 ，Python! “. encode ("GBK") 


D CAWindows\system32\emdexe | 
| ello vorid? 
REF ， Python! 


moe 
ld!” 


1-29 执行 hello.py 
至 此 ，Windows 下 的 hello.py 执行 完毕 。 


2 . Linux 下 创建 hello.py 
(1) 使 用 Putty 连接 到 Linux， 执 行 命令 : 
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执行 结果 如 图 1-30 所 示 。 


学 king@debian: ~/code/python. 


king@debian:~$ mkdir -pv code/ crawler 
mkdir: created directory ‘code/crawler’ 


king@debian:~/code/python $ cat > hello.py << EOF 
> #!/usr/bin/env python 

> #-*- coding: utf-8 -*- 

> authon = 'hstking hstking@hotmail.com' 


Ee Pata | 


print "hello world!" 
print "你 好 ，PYchon! " 


king@debian:~/code/python $ [| 


1-30 编辑 hello.py 
(2) 然后 在 Putty 中 执行 命令 : 
Pythonhellopy 
执行 结果 如 图 1-31 所 示 。 


a king@debian: ~/code/python. 


king@debian:~$ mkdir -pv code/python. 

mkdir: created directory ‘code/python.’ 
king@debian:~$ cd !§ 

cd code/python. 

king@debian:~/code/python.$ cat > hello.py << EOF 
> #!/usr/bin/env python 

> #-*- coding: utf-8 -*- 

> _authon = 'hstking hstking@hotmail.com' 


> 

> if name == '_main_': 

> print "hello world!” 

> print "你 好 ，BYchon! " 

> EOF 

king@debian:~/code/python.$ python hello.py 


king@debian:~/code/python.$ i 


1-31 执行 hello.py 


这 是 没有 使 用 文本 编辑 工具 编辑 文档 ， 用 的 是 cat 命令 。 如 果 有 条 件 ， 尽 可 能 地 使 用 文 


本 编辑 器 ， 如 vi。 几乎 所 有 的 Linux 版 本 都 默认 安装 了 vi 文本 编辑 器 。 
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Linux 下 的 hello.py 执行 完毕 。 比 较 一 下 这 两 个 不 同系 统 下 的 hello.py， 可 以 发 现 基本 上 
是 一 致 的 ， 只 有 在 涉及 中 文 处 理 的 时 候 稍 有 差别 (Windows 和 Linux 中 的 中 文 处 理 采 用 了 不 
同 的 字符 编码 。Windows 使 用 的 是 GBK, Linux 一 般 默认 使 用 utf8) 。 几 乎 所 有 的 Python 程 
序 都 可 以 在 不 同系 统 中 通用 ， 这 也 是 Python 最 大 的 优势 之 一 。 


1.3 ajg 


Python if a MER). He eefa PI BAe a HREM ER DEn 
服务 于 企业 、 政 府 、 学 校 ， 也 能 用 于 个 人 ， 而 且 Python 易学 难 精 ， 不 管 是 初学 者 还 是 “高 段 
选手 ”都 值得 一 和 学、 一 用 。 尤 其 是 对 网 络 的 大 力 文 持 ， 使 得 Python 用 于 网 络 编程 具有 很 大 的 
优势 ， 这 也 是 为 什么 要 用 Python 写 网 络 爬 虫 的 原因 之 一 。 
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本 章 简略 讲解 Python 的 基础 ， 介 绍 Python 与 其 他 编程 语言 的 不 同 之 处 。 在 此 主要 是 与 
C 语言 相 比 较 。 如 果 有 C 语言 的 基础 ， 理 解 本 草 内 容 会 更 加 容易 ; 如 果 没 有 基础 也 没关系 ， 
Python 语言 非常 非常 的 简单 ， 多 看 两 遍 也 就 会 了 。 


2.1 Python 变量 类 型 


Python 的 标准 数据 类 型 只 有 5 个 ， 分 别 是 数字 、 字 符 串 、 列 表 、 元 祖 、 字 典 。 看 起 来 比 
C 语言 的 数据 类 型 少 了 很 多 ， 但 该 有 的 功能 一 个 不 少 。 即 使 C 语言 的 代表 作 链 表 和 二 又 树 ， 
Python 同样 能 应 付 目 如 。 


2.1.1 数字 
Python 文 持 4 种 不 同 的 数值 类 型 : 
1. int 类 型 


有 符号 整数 ， 就 是 C 语言 中 所 指 的 整 型 ， 也 就 是 数学 中 的 整数 。 它 的 大 小 与 安装 的 解释 
器 的 位 数 有 关 。 如 果 赋 值 超出 了 这 个 范围 ， 则 目 动 转换 成 了 Long 长 整 型 。 得 看 当前 系统 下 
的 Int 最 大 值 ， 使 用 Putty 登录 Linux， 执行 命令 : 


执行 结果 ， 如 图 2-1 所 示 。 


Python Mi eR KAR 


学 king@debian: ~ 


Using username "king". 
Authenticating with public key "imported-openssh-key"” 


The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 

You have new mail. 

Last login: 

king@debian:~$ python 

Python 2.7.9 (default, Mar 1 2015, 12:57:24) 

[GCC 4.9.2] on linux2 

Type “help”, "copyright", “credits” or “license” for more information. 
>>> import sys 

>>> print sys.maxint 

9223372036854775807 


2-1 int 最 大 值 


与 C 语言 不 同 的 是 ，Python 给 变量 赋值 时 不 需要 预先 声明 变量 类 型 。 也 就 是 说 ， 在 给 变 
量 赋值 时 小 于 9223372036854775807 的 数字 会 被 默认 为 int 类 型 。 超 过 了 ， 则 日 劫 变 成 Long 
类 型 。 

男 外 ， 八 进 制 数 学 、 十 六 进 制 数字 都 是 属于 int (Long) KEH. 


2. Long 类 型 


长 整数 ， 超 过 int 类 型 的 整数 默认 转换 Long， 一 般 来 说 int 足够 用 了 。Long 类 型 没有 限 
制 大 小 ， 想 赋值 多 大 都 行 ， 只 要 内 存 足够 大 就 可 以 了 。 在 Windows 中 打开 cmd.exe， 执 行 命 
令 : 


python 
type (999999999999999999999999999999) 


执行 结果 如 图 2-2 所 示 。 


mg “AY Aine " As 


Microsoft Windows [有 6.1.7601] 


RELS <c) 2009 Microsoft Corporations 保留 所 有 权利 。 


: Wsers \king>python 
Python 2.7.11 (v2.7.11:6d1ib6a68f£775. Dec 5 2615, 20@:46:3@> [MSC v.1500 
AMD64>] on win32 
, a 


Type “help”. “cor she. * i bal ed se” for more information. 


>> type (99999999999999999999999999999> 
type ’ long’ > 


2-2 Python long int 
3. Float 类 型 


浮 点 型 实数 ， 基 本 和 CSIR, ete BS i DBO, DEAE R 
数 ， 不 区 分 精度 。 只 要 是 市 小 数 点 的 数 部 可 以 看 作 浮 点 型 数据 。 
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4. Complex 类 型 


复数 ， 在 C 语言 中 是 需要 上 自 定 义 的 一 个 数据 类 型 。 在 Python 中 把 它 单独 列 出 作为 基本 
数据 类 型 。 复 数 包含 一 个 有 序 对 ， 表 示 为 a+bj， 其 中 ，a 是 实 部 ，b 是 复数 的 虚 部 。 


【示例 2-1】 用 一 个 简单 的 程序 showNumType.py 来 显示 Python 的 数字 类 型 。 使 用 Putty 


showNumType.py 代码 如 下 : 


Python WREE Khk 


在 Putty 下 执行 命令 : 
python showNumType.py 
得 到 结果 如 图 2-3 所 示 。 


ap king@debian: ~/code/crawler 
king@debian:~/code/crawler$ python showNumType.py 
—X—XKX—X!! 


, 10000 
,0b10011100010000 
, 023420 


,0x2710 


r 


0x0 
HHHH HETES 3444444444444 
十 进 制 的 整 型 


-10000000000000000000,0 ,10000000000000000000 
八进制 的 整 型 

-01053071060221172000000L,0 , 01053071060221172000000L 
十 六 进 制 的 整 型 

-O0x8ac7230489e80000L, 0x0 , Ox8ac7230489e80000L 
HHHH HEETE AU HHH 

-100.0010000000 :0.0000000000 ,100.0010000000 

esis siti i NibaW SSE ptt t tH 

变量 赋值 复数 var = 3 + 4j 

var 的 实 部 是 : 3 vari mabe: 4 


king@debian:~/code/crawler$ || 


2-3 run showNumType.py 


showNumType.py 是 Linux 下 以 C++ 风 格 写 的 程序 ， 展 示 如 何 标准 输出 各 种 基本 数字 类 
型 。 


2.1.2 FRR 
在 Python 中 ， 了 字符 串 是 被 定义 为 在 引号 〈 或 双 引 号 ) 之 间 的 一 组 连续 的 字符 。 这 个 字符 
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ny De Beth EAT Le, te LAE NL ER” RR SESE 
字符 串 的 操作 方法 很 多 ， 这 里 只 选 出 最 典型 的 几 种 。 


(1) 字符 串 大 小 写 转换 


© Slower): 字母 大 写 转换 成 小 写 。 

© Supper): 字母 小 写 转 换 成 大 写 。 

© S.swapcase(): 字母 大 写 转换 小 写 ， 小 写 转 换 成 大 写 。 
© Sititle0: 将 首 字 母 大 写 。 


(2) 字符 串 搜索 、 符 换 


@ S.find(substr, [start, [end]]): 返回 S P EI substr 的 第 一 个 字母 的 标号 ， 如 果 S PR 
有 substr 则 返回 -1，start 和 end 作用 就 相当 于 在 S[start:end] 中 搜索 。 

@ S.count(substr, [start, [end]]) : 计算 substr Æ S 中 出 现 的 次 数 。 

@ S.replace(oldstr, newstr, [count]): 把 S 中 的 oldstar 替换 为 newstr，count 为 替换 次 
žk. 

© S.strip([chars]): 72S 左右 两 端 chars 中 有 的 字符 全 部 去 掉 ， 一 般 用 于 去 除 空格 。 

© S.lIstrip({chars]): 把 S Æ% chars 中 所 有 的 字符 全 部 去 掉 。 

©  S.strip([chars]): 把 S 4.3% chars 中 所 有 的 字符 全 部 去 掉 。 


(3) FRR, AG 

© S.split([sep, [maxsplit]]): 以 sep 为 分 隔 符 ， 把 S 分 成 一 个 list。maxsplit 表示 分 割 的 
次 数 ， 默 认 的 分 割 符 为 空白 字符 。 

© Sjoin(seq): 把 seq 代表 的 序列 一 一 字符 串 序 列 ， 用 S 连接 起 来 。 

(4) FFT HB OAS. RAY 

@ S.decode([encoding]): 将 以 encoding 编码 的 S 解码 成 unicode 4444. 

@ S.encode([encoding]): 将 以 unicode 编码 的 S 编码 成 encoding, encoding 可 以 是 
gb2312. gbk, big5...... 


CS) FIFE RWA 


@ S.isalpha): S 是 否 全 是 字母 ， 至 少 有 一 个 字符 。 

© Sisdigit): S 是 否 全 是 数字 ， 至 少 有 一 个 字符 。 

© S.isspace(): S 是 否 全 是 空白 字符 ， 至 少 有 一 个 字符 。 
© S.islower(): S 中 的 字母 是 否 全 是 小 写 。 

@ S.isupper(): S 中 的 字母 是 否 全 是 大 写 。 

@ Sistitle0): S 是 否 是 首 字 母 大 写 的 。 


【示例 2-2】 编 写 一 个 showStrOperation.py 来 实验 一 下 。 这 次 在 Windows 下 以 IDLE 为 
IDE 来 编写 程序 。showStrOperation.py 代码 如 下 : 
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打开 Windows 的 命令 行 工 具 (cmd.exe )， 执 行 命令 : 
Python showStroperation-py 
得 到 结果 如 图 2-4 所 示 。 


Python Mie E EAk 


| @ showStrOperation.py - C:\Users\king\Dd 国 CAWINDOWS\system32\cmnd.exe = -| 
File Edit Formst Run Optons “We g n 
=\Ucers \king\Desktop>python showStrOperation-py 
| ET z 
dəf r PR ma TET JĀ: > This is a PYTHON 
e T m rte et 
print CRRA ZIRAS J ThI -upper = 
s=° ie a PYTHON 多 v S swapcased )》 = tHaS IS A python 
print “S>HFRABRE: \ find(’ i ; a ; 
Brimi -S Sia: amt ("4 + $.title O This Is A Python 
print “SFSAA: \ aca 
print “去 左右 空格 : stripi _ 
print HEZ: lstripi ET 
print “A AIDS: \ retrip (PE ; ? This is a PYTHON ’ 
print *\n = $.find¢’ is”? =7 
> §.count(’s’> =2 
def strSplitd: f ` S.replace<’Is’,’is’) = This is a PYTHON 
"StH 7 Bl, Ae" . Ar. § .stripO> =#tThIs is a PYTHON 
oS em an §.1strip© -HIThIs is a PYTHON # 
Sa This is a PYTHON Bi S.retripc> =" This is a PYIHONT 
print “SRB: tts, split) 
print SEREEN ; j at 
print “SRP#Sa8a2: joint? te >; AN, 4 合 
print ”字符 外 组 合 3 ; J ie fae) ie 了 ThI i PYTHON ° 
print *\n' ay ; 全 A 
FTR A l: £.split © = [’ThIs’, is’, ’a’, 'PYTHON’ ] 
def strÇode(}:; P TH HRSA: "W joint’ this’ ,’is’,’'a’,’ python’ 1) = thistis#a#python 
saelat epee gp” ET 组 合 2 = .gjoinCl’this’,’is’,’a’,’ python’ ]> = this$is$a$python 
Sint og TS HBS | 4 编码 前 了 1 组 台 3， -Join(L’this’,’is’.’a’,’ python’ ]> - this is a python 
5- ARERI 
print “6HX 纺 码 的 3 At =- %s"S(S 
print “GDKR RSs oe BIET Ta To A 
print “3, decode C GBE’ )- ts"%(S.d 
print ODEA EIS M Mutta a Shi é RTR 
print ”5, decode C GBE’ ode C u $ = 
print “$8: PERRO ERS JSF fun misgi 
print “\n salen inr iei 编码 解码 测试 
def zato: S$ .decode <’ GBK’ >. pie ut f8’ 的 部 le 
TR $- LE row \ 管 : re 
print TZIE} 
Ermi “RESHMA: ed AAIE ERNIE GER aes T ngt 
bane a 
print H-E Er isalpha() ~ Xs”%(S1] 
print tae isdigit() - %s"%(S1L. 测试 
print “jl isspace() ~ Ns*%(S1tR RTT 
print ‘MNS. islower(] - Ss"% (S148 SIREH: *abed’ 
print * MJS. uan - Ņa”% (S1 ies. isalpha(> = True 
print “WitS.istatle() - Ys RSIS. isdigitK> = False 
a ae oe ee MHES. isspace©O - False 
— ë gtrCase() a 测试 s- is lower(> = True 
mainii MES. isupper© - False 
etrSpli | = 
pit a 测试 s istitle¢> = False 
atrTest () 
CG: Wsers sking Wes ktop> 
v 


2-4 run showStrOperation.py 


与 showNumType.py AE], showStrOperation.py 是 在 Windows 下 以 C 语言 的 风格 编写 
的 。 实 际 上 这 两 个 程序 并 没有 什么 区 别 ， 写 哪 种 风格 看 个 人 习惯 。 唯 一 的 区 别 就 是 Windows 
默认 的 是 GBK 编码 ， 所 以 showStrOperation.py 声明 的 是 #-*- coding:GBK -*-; 而 Linux 默认 
的 是 utf8 编码 ， 所 以 showNumType.py 声明 的 是 #-*- coding:utf8 -*-。 


字符 串 也 可 以 看 成 一 个 不 可 修改 的 字符 列表 。 所 以 ， 大 部 分 用 来 操作 列表 的 方法 (不 涉 


及 修改 列表 元 素 的 ) 同样 可 以 用 来 操作 字符 串 。 


2.1.3 ”列表 

列表 是 Python 最 常用 的 变量 类 型 。 列 表 是 一 个 可 变 序列 ， 序 列 中 的 每 个 元 素 都 分 配 一 个 
数字 即 它 的 位 置 ， 或 者 叫 索引 。 第 一 个 索引 是 0， 第 二 个 索引 是 1， 依 此 类 推 。 列表 中 的 元 素 
可 以 是 数字 、 字 符 串 、 列 表 、 元 组 、 字 典 ……Python 使 用 中 括号 [ ] 来 解析 列表 ， 给 一 个 变 
量 赋值 为 空 列表 。 很 简单 ， 执 行 命令 var = [] 就 可 以 了 。 

列表 的 基本 操作 很 简单 ， 常 用 的 操作 一 般 是 创建 列表 、 插 入 数据 、 追 加 数据 、 访 问 数 
据 、 删 除数 据 。 下 面 实验 一 下 : 

创建 列表 ， 直 接 赋值 即 可 。 访 问 列表 只 需要 列表 名 和 列表 中 元 素 的 下 标 即 可 。 创 建 一 个 
字符 的 列表 ， 执 行 命令 : 


L1 = ['a','b','c','d','e'] 
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执行 结构 如 图 2-5 所 示 。 


学 king@debian: ~ 


king@debian:~$ python 
Python 2.7.9 (default, Mar 1 2015, 12:57:24) 


ype “help”, "copyright", "credits" or "license" for more information. 
= a b' da a 


Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
IndexError: list index out of range 
>>> 


图 2-5 创建 列表 
如 图 2-5 所 示 ， 如 果 访 问 超出 范围 ，Python 则 会 抛 出 一 个 异常 IndexError。 如 果 只 是 创 
建 一 个 纯 字 符 的 列表 ， 无 须 一 个 个 地 输入 字符 ， 有 个 更 简单 的 方法 ， 执 行 命令 LI = 
list(‘abcde’ Ef Hy 。 
插入 、 妃 加、 删除 列表 数据 也 很 简单 。 执 行 命令 : 


执行 结果 如 图 2-6 所 示 。 


a king@debian: ~ 


>>> Li 
'b', 'c', 'd', "e'] 


'c', 'd', 'e'] 
>>> Li.insert (-1,100) 


‘a', 'p', 'c', 'd', 100, 


100, 'python'] 


'python'] 


图 2-6 插入 、 追 加 、 删 除数 据 


29 


Python Mz% E R SKAR 


对 列表 最 常用 的 操作 是 列表 分 片 。 分 片 可 以 简单 地 理解 为 将 一 个 列表 分 成 几 块 。 它 的 操 
作 方 法 是 list[indexl:index2[:step]]。 先 创建 一 个 较 长 的 数字 列表 做 这 个 分 片 示 例 ， 执 行 命令 : 


这 样 就 创建 了 一 个 包含 了 从 0~100， 共 101 个 数字 的 列表 ， 如 图 2-7 所 示 。 


P king@debian: ~ 

>>> L2 = [] 

>>> for i in xrange (0,101): 
L2.append (i) 


2-7 创建 数字 列表 
列表 切片 其 实 和 访问 列表 元 素 很 相似 。 例 如 ， 要 访问 列表 L2 的 第 10 个 元 素 ， 那 么 就 应 
该 是 L2[10] 就 可 以 了 。 如 果 要 访问 列表 L2 的 第 10 到 20 个 元 素 呢 ? 很 简单 ，L2[10:21] 就 可 
以 了 。 人 至 于 list[index1:index2[:step]] 中 的 step 是 步 长 。 实 验 一 下 就 清楚 了 ， 执 行 命令 : 


执行 结果 如 图 2-8 所 示 。 
@® king@debian: ~ 


, 27, 28, 29, 
, 47, 48, 49, 
, 67, 68, 69, 
, 87, 88, 89, 


[21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 35, 40] 
>>> L2[81:101] 
[31, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 98, 100 


] 
>>> L2[0:21:1] 
[9, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20] 


10, 12, 14, 16, 18, 20] 


2-8 列表 分 片 
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【示例 2-3】 写 个 简单 的 程序 showListpy 验证 一 下 。 打 开 Putty 连接 到 Linux， 执 行 命 
令 : 


showList.py 的 代码 如 下 : 
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输入 :wq， 保 存 showList.py. showList.py 显示 了 Python 列表 的 基本 功能 
建 、 插入 、 追加 、 THF. 执行 命令 : 


python showbist.py 
得 到 的 结果 如 图 2-9 所 示 。 


ap king@debian: ~/code/crawler 


列表 的 创 


king@debian:~/code/crawler$ python showList.py 
5 JAD : 


创建 列表 : 
L1 = list('abcdefg') 
sa 
for i in xrange (0,10): 
L2.append (i) 
LI = [*a', 'b', 'c', yr: tet, se tg") 
L2 = ({0, i, 2, 3, 4, S5; & 7; 8; 9] 


播 入 数据 
sgt rar cr ache 执行 命令 : Li.insert (3,100) 
['a', tb’; oc", 100, qa', teti af A a ' 
LIEB io ERAS python', 执行 命令 ; L2.insert (10, 'python') 


L2 = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, ‘python’] 


追加 数据 

L1 列 宕 尾 追 加 一 个 列表 [1,2,3]， 执 行 命令 L1.append ([1,2,3] 

Li = ['a', 'b', 'c', 100, 'd', 'e', 'f', 'g', [1, 2, 3]] 

L2 列 表 尾 追加 一 个 元 组 (' a','b','c"); 执行 命令 L1 append(('a','b','c') 
L2 = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, "python', ('a', 'b', 'c')] 


删除 数据 

删除 L1 的 最 后 一 个 元 素 ， 执 行 命令 L1 .pop() 

Li = We d e pl -an 100, a"i 'e', E oa sau 

删除 L1 的 第 1 个 元 素 ， 热 行 命令 L1.pop(0) 

[A = i :i nl hae 100, sani "e', oe adr 'g'] 

删除 L2 的 第 4 个 元 素 ， 执行 命令 L1 .pop (3) 

L2 = [0, 1, 2, 4, 5, 6 7, 8 9, "python", ('a', 'b', 'c')] 


列表 分 片 
ae aga 执行 命令 L1[2:] 
[100, ae. 'e', H laa 1G 
取 列 委 z2 的 第 2 不 到 倒数 第 2 个 元 素 组 成 的 新 列表 ， 步 长 为 2， 执 行 命令 L2[1:-1:2] 
[1, 4, 6, 8, 'python'] 
raceback (most recent call last): 
File “showList.py", line 82, in <module> 
sl = ShowList() 
File “showList.py", line 15, in init __ 
self.subList() 
File “showList.py", line 78, in subList 
pritn('\n') 
INameError: global name 'pritn' is not defined 
king@debian: ~/code/crawler$ 0 


2-9 run showList.py 


列表 还 有 很 多 其 他 的 函数 和 操作 方法 ， 如 有 兴趣 可 参考 官方 文档 和 google。 列 表 和 元 组 
AERA, EH SR, EAE S H. PI, Ze Python 编程 中 必 不 可 少 的 一 部 分 。 
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2.1.4 元 组 


Python 的 元 组 与 列表 非常 相似 ， 不 同 之 处 在 于 元 组 的 元 素 是 不 可 修改 ， 它 是 一 个 不 可 变 
序列 。 列 表 使 用 [] 来 声明 ， 元 组 使 用 () 声 明 。 

元 组 创建 很 简单 ， 只 需要 在 括号 中 添加 元 素 ， 并 使 用 有 逗号 隔 开 即 可 。 创 建 一 个 空 元 组 ， 
执行 命令 var = ()。 因 为 元 组 中 元 素 是 不 可 修改 的 ， 所 以 列表 中 的 操作 方法 insert. append, 
pop 等 操作 对 于 元 组 这 些 都 没有 。 又 因为 元 组 与 列表 的 高 度 相似 性 ， 列 表 的 切片 对 元 组 是 完 
全 适用 的 (切片 并 不 改变 原始 数据 ) ， 所 以 只 需要 记 住 一 个 原则 ， 列 表 中 修改 元 素 值 的 操作 
元 组 都 不 可 用 ， 列 表 中 不 修改 元 素 值 的 操作 元 组 基本 上 都 可 以 用 。 

元 组 和 列表 是 可 以 互相 转换 的 。 使 用 tuple(list) 可 以 将 一 个 列表 转换 成 元 组 ， 反 过 来 使 用 
list(tuple) 也 可 以 将 一 个 元 组 转换 成 列表 。 


【示例 2-4】 编 写 一 个 showTuple 来 实验 一 下 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


showTuple.py 的 代码 如 下 : 


#2 Python 基础 


输入 :wq， 保 存 showTuple.py. showTuple.py 显示 了 Python 元 组 的 创建 、 分 片 和 转换 。 
执行 命令 : 


___Python showruple-py 
得 到 的 结果 如 图 2-10 所 示 。 


只 king@debian: ~/code/crawler 


: ~/code/crawler$ python showTuple.py 
3J Æ JOH: 

1 = (1,2,3,4,5,6,7,8,9,10) 

i= (1, 2, 3, 4, 5S, 6 J, 8, 9, 10) 


元 组 分 片 : 

取 元 组 T1 的 第 4 个 到 最 后 一 个 元 组 组 成 的 新 元 组 ， 执 行 命令 T1[3:] 

(4, 5, 6, 7, 8, 9, 10) 

取 元 组 T1 的 第 2 个 到 倒数 第 2 个 元 素 组 成 的 新 元 组 ， 步 长 为 2， 执 行 命令 T1[1:-1:2] 


(2, 4, 6, 8) 


3, 4, 5, 6, 7, 8, 9, 10) 
执行 命令 L2 = list(T1) 

ERIN 

L2 = [1, 2, 3 4, 5, 6 7, 8 


+ 9, 10) 
列表 追加 一 个 元 素 100 后 ， 转 换 成 元 组 。 执 行 命令 L2 .append(100) tuple (L2) 
显示 新 元 组 


iA E ee 6 7, 4, 30, 
king@debian: ~/code/crawler$ 
king@debian:~/code/crawlers || 


2-10 run showTuple.py 
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因为 元 组 和 列表 高 度 相似 ， 绝 大 部 分 场合 都 可 以 用 列表 来 蔡 代 元 组 。 


| 元 组 和 列表 不 同 仅 在 于 一 个 可 修改 ， 一 个 不 可 修改 。 其 他 方面 几乎 没什么 区 别 。 由 于 元 
组 不 可 修改 的 特性 ， 一 般 在 函数 中 需要 返回 多 个 返回 值 时 ， 可 以 将 这 些 返 回 值 放 入 一 个 


元 组 中 返回 。 


2.1.5 字典 


从 茶 种 意义 上 来 说 ， 字 典 和 列表 也 很 相似 。 字 典 使 用 的 是 入， 列表 使 用 的 是 []， 元 素 分 
隅 符 都 是 去 号 。 所 不 同 的 是 列表 的 索引 只 是 从 0 开始 的 有 序 整 数 ， 不 可 重复 ， 而 字典 的 索引 
实际 上 在 字典 里 应 该 叫 键 。 虽 然 字典 中 的 键 和 列表 中 的 索引 一 样 是 不 可 重复 的 ， 但 键 是 无 序 
的 ， 也 就 是 说 字典 中 的 元 素 是 没有 顺序 而 言 的 。 字 典 中 的 元 素 任 意 排列 都 不 影响 字典 的 使 
用 。 

字典 的 键 可 以 是 数字 、 了 字符 串 、 列 表 、 元 组 …… 几 乎 什么 都 可 以 ， 一 般 用 字符 串 来 做 
键 ， 键 与 键 值 用 冒号 分 割 。 在 列表 中 是 通过 索引 来 访问 元 素 ， 而 在 字典 中 是 通过 键 来 访问 键 
值 。 因 为 字典 按 “ 键 ” 寻 值 而 不 同 于 列表 的 撤 “ 索 ” 寻 值 ， 所 以 字典 的 操作 方法 与 列表 稍 有 
区 别 。 

首先 创建 一 个 字典 实验 一 下 ， 执 行 命令 : 


这 样 就 建立 了 一 个 简单 的 IronMan 字典 。 因 为 字典 的 键 值 是 无 序 的 ， 所 以 插入 一 个 数据 
无 须 insert 之 类 的 方法 。 直 接 定 义 即 可 ， 执 行 命令 : 


如 需 添加 资料 ， 只 需要 继续 这 样 添加 即 可 。 如 果 发现 资 料 有 误 ， 修 改 字 典 ， 同 样 也 是 直 
接 定义 ， 执 行 命令 : 


如 果 要 删除 某 个 元 素 ， 可 以 使 用 del fiz. del 命令 可 以 理解 为 取消 分 配给 变量 的 内 存 空 
间 。 执 行 命令 : 


del 命令 不 只 是 可 以 删除 字典 的 元 素 ， 类 似 字 典 元 素 、 用 户 定 义 的 变量 都 可 以 用 del 来 删 
除 。 它 可 以 删除 数字 变量 、 字 符 串 变量 、 列 表 、 元 组 、 字 典 等 等 。 
字典 还 有 一 些 独特 的 操作 。 以 下 是 字典 中 最 常用 的 操作 : 


© dcit.keys(): 返回 一 个 包含 字典 所 有 key 的 列表 。 
@ dict.values():; 返回 一 个 包含 字典 所 有 value 的 列表 。 
© dict.items(): 返回 一 个 包含 所 有 ( 键 , 值 ) 元 组 的 列表 。 
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© dict.clear(): 删除 字典 中 所 有 的 元 素 。 
© dict.get(key): 返回 字典 中 key 所 对 应 的 值 。 


【示例 2-5】 编 写 一 个 showDict 来 实验 一 下 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


showDict.py 的 代码 如 下 : 


Python WREE Seay 
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输入 :wq， 保 存 showDict.py. showDict.py 显示 了 Python 字典 的 基本 功能 。 执 行 命令 : 
Python showict.py 
得 到 的 结果 如 图 2-11 所 示 。 


ep king@debian: ~/code/crawler 


gee :~/code/crawlers python showDict. py 


= {'name':’Peter Parker’, '’'sex'’:'male'’,'Nation'’:’'Americ’,'colle 


{'Nation': 'Americ', ‘college': 'MIT', 'name': ‘Peter Parker', ‘sex 


SpiderMan = {'age': 31, 'Nation': 'Americ', 'college': 'MIT', 'name': 'Peter Pa 
'sex': ‘male'} 


字典 修改 键 'college' 的 值 为 'Empire State University' 
执行 命令 spiderMan['college'] = "Empire State University' 
显示 字典 
i {'age': 31, "Nation': ‘Americ’, ‘college’: ‘Empire State University 
"Peter Parker', 'sex': 'male'} 


字典 的 其 它 操作 方法 
二 
显示 字典 所 有 的 键 ，kevyList = spiderMan.keys() 
= [‘age', ‘Nation', ‘college’, ‘name', ‘sex'] 


显示 字典 所 有 键 的 值 ， valueList = spiderMan.values() 
valueList = [31, ‘Americ’, ‘Empire State University', ‘Peter Parker’, ‘male'] 


? 
{(*age', 31), (‘Nation’, ‘Americ'), (‘college', ‘Empire State Univer 
('name', ‘Peter Parker'), (‘'sex', ‘male')j] 


RSRPBAcollecc fF, college = spiderman.get('college') 
college = Empire State University 


删除 字典 中 键 为 Nation 的 值 
执行 命令 del (spiderMan['Nation']) 
显示 字典 
{'age': 31, 'college': ‘Empire State University', 'name': 'Peter Pa 
"sex': ‘male'} 


清空 字典 中 所 有 的 值 
执行 命令 SpiderMan.clear() 
显示 字典 


执行 命令 del (spiderMan) 
显示 spiderMan 
spiderMan 未 被 定义 


king@debian:~/code/crawler$ 


2-11 run showDict.py 
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Python 的 基本 变量 类 型 就 是 这 些 。 其 他 的 类 型 几乎 都 是 由 这 些 基 本 类 型 组 合 而 来 
(Python 的 数据 类 型 还 有 None 和 boolean) 。 


5 = 
BAR FHT RAM. LRA AAR LT RT A A E f 
为 键 。 如 果 把 键 设置 得 太 复 杂 了 ， 那 也 就 失去 字典 的 意义 了 。 


2.2 Python 语句 


说 到 语句 ， 回 想 一 下 C CH, Java, Per 等 ， 似 乎 所 有 的 编程 语言 都 有 类 似 的 语句 。 条 
件 判断 、 有 限 循环 、 无 限 循环 ， 这 几 个 是 最 基本 的 ， 也 是 必 不 可 少 的 。 每 个 编程 语言 都 兰 不 
多 。 熟 悉 了 这 几 个 语句 后 ， 即 使 是 一 门 从 未 接触 过 的 语言 ， 稍 微 了 解 一 下 格式 语法 就 可 以 用 
新 的 语言 解决 一 般 的 小 问题 了 。 


if else 


2.2.1 条 件 语句 


似乎 所 有 的 条 件 语句 都 使 用 if……else……。 它 的 作用 可 以 简单 地 概括 为 非 此 即 彼 。 满 足 
条 件 A 则 执行 A 的 语 多， 否则 执行 B AJ. Python 的 让 ……else…… 功 能 更 加 强大 ， 在 站 和 
else 之 间 添 加 数 个 elif， 有 更 多 的 条 件 选择 。 其 表达 形式 如 下 : 


【示例 2-6】 编 写 testIfRemainder7.py 熟悉 一 下 Python 下 的 if 4). testIfRemainder7.py 
用 来 检验 输入 数字 能 否 被 7 整除 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


testIfRemainder7.py 的 代码 如 下 : 


#2 Python 基础 


输入 :wq， 保 存 testIfRemainder7.py. testIfRemainder7.py 要 求 用 户 输入 一 个 整数 ， 然 后 判 
断 这 个 数 能 否 被 7 整除 ， 基 本 就 是 一 个 最 基本 的 非 此 即 彼 的 判断 。 执 行 命 令 : 


得 到 的 结果 如 图 2-12 所 示 。 


0 可 以 被 7 整除 
kingêdebian:~/code/crawler$ [| 


2-12 run testIfRemainder7.py 


非常 简单 。 按 照 格式 ， 照 猎 画 虎 就 可 以 解决 类 似 的 问题 了 。 

Case switch 是 C 语言 中 经 典 的 条 件 语句 之 一 。 可 惜 的 是 Python 中 并 没有 Case 语句 。 不 
过 没关系 ，if elif else 完全 可 以 替代 case 语句 。 如 果 原 意 开 动脑 筋 ，Python 中 还 有 很 多 可 以 
EK Case 语句 的 方案 ， 例 如 利用 字典 什么 的 ， 这 里 就 不 再 一 一 资 述 了 。 


2.2.2 有限 循 环 一 一 for 

在 编程 时 ， 总 会 遇 到 这 种 事情 ， 把 某 个 过 程 重复 N 次 。 这 是 每 个 编程 语言 都 不 可 避免 
的 。 好 在 几乎 所 有 的 编程 语言 都 提供 for 语句 。 它 的 作用 是 将 一 个 语句 块 、 函 数 等 重复 执行 
有 限 的 次 数 。 

for 循环 表达 形式 如 下 : 
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比如 从 1 加 到 100。 大 数学 家 高 斯 (Johann Karl Friedrich Gauss ) 10 岁 时 就 给 出 了 计算 
的 公式 。 虽 然 已 丝 有 了 简单 的 方法 ， 用 笨 方 法 验算 一 下 也 不 错 。 


【示例 2-7】 编 写 testForGauss10.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


testForGauss10.py 的 代码 如 下 : 


输入 :wq， 保 存 testForGauss10.py。testForGauss.py 将 使 用 最 第 的 方法 求人 1 加 到 100 的 
和 ， 使 用 for 循环 一 个 数 一 个 数 地 有 登 加 。 执 行 命令 : 


得 到 的 结果 如 图 2-13 Ara. 


$2 Python 基础 


a python testForGauss10.py 
EE 
输入 exit 退 出 程序 : 

从 1 累加 到 : 10 

从 1 累加 到 10 的 总 数 是 55 


输入 exit 退 出 程序 : 

从 1 累加 到 : 100 

从 1 累加 到 100 的 总 数 是 5s050 

输入 exit 退 出 程序 : 

从 1 累加 到 : 1000 

从 1 累加 到 10o0 的 总 数 是 500500 

从 1 累加 到 : pe 

从 1 累加 到 18577 的 总 数 是 172561753 
输入 exit 人 退出 程序 : 

Nak 


1 exit 
king@debian:~/code/crawlers || 


2-13 run testForGauss10.py 


经 过 验算 ， 聪 明 办 法 和 举办 法 得 到 的 结果 一 致 。for 循环 用 于 数字 循环 时 有 2 种 方法 生成 
Sequence， 一 种 是 range(1,100)， 另 一 种 是 xrange(1,100)。 在 使 用 for 循环 时 ， 这 两 种 方法 生 
成 的 Sequence 几乎 没有 区 别 。 但 如 果 循 环 数 比 较 大 的 情况 下 建议 使 用 xrange， 因 为 range 是 
直接 生成 了 一 个 列表 ， 而 xrange 则 是 生成 了 一 个 生成 器 。 

仔细 看 下 for 循环 的 表达 式 ，Sequence 是 一 个 序列 ， 说 明 for 循环 不 仅仅 适用 于 数字 形式 
的 循环 ， 比 如 可 以 将 文件 放 入 列表 中 作为 一 个 序列 ， 然 后 对 文件 进行 操作 。 


2.2.3 无限 循 环 一 一 while 


ARAA RHA, SARARMA. EREA EHE. RENERE, 
一 直 循 环 下 去 ， 直 到 满足 条 件 为 止 。While 循环 表达 形式 如 下 : 


【示例 2-8】Linux 终端 登录 就 是 一 个 类 似 while 循环 的 示例 。 下 面 模拟 Linux 终 闪 登录 ， 
编写 testWhileSimulateLogin.py。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


testWhileSimulateLogin.py 的 代码 如 下 : 


Python PR Mesa SCA) 


输入 :wq， 保 存 testWhileSimulateLogin.py. testWhileSimulateLogin.py 脚本 模拟 Linux & 
录 ， 如 果 输 入 了 正确 的 密码 才 退 出 程序 ， 输 入 了 错误 的 密码 则 给 出 相应 的 提示 ， 直 到 输入 正 
确 为 止 。 因 为 不 知道 会 输入 多 少 次 才 会 退出 ， 所 以 这 里 使 用 while 循环 正好 。 执 行 命令 : 


得 到 的 结果 如 图 2-14 所 示 。 


#2 Python 基础 


hello, you have login system 
退出 程序 


king@debian:~/code/crawlers [| 


2-14 run testWhileSimulateLogin.py 


实际 上 目前 的 终端 登录 都 有 次 数 限制 ， 不 可 能 这 样 无 限 地 输入 密码 进行 测试 ， 否 则 就 会 
被 暴力 破解 。 正 好 这 个 程序 没有 限制 ， 有 兴趣 的 可 以 自行 编写 程序 ， 实 验 一 下 暴力 破解 密 
码 。 


2.2.4 A EIAI continue, break 


continue 和 break 语句 都 只 能 作用 于 循环 之 中 ， 只 对 循环 起 作用 。continue 的 作用 是 ， 从 
continue 语句 开始 到 循环 结束 ， 之 间 所 有 的 语句 都 不 执行 ， 直 接 从 下 一 次 循环 重新 开始 ; 而 
break 语句 的 作用 是 退出 循环 ， 该 循环 结束 。 

【示例 2-9】 用 continue, break 来 做 一 个 随机 猜 数 字 的 游戏 。 先 给 定 一 个 数值 范围 ， 系 统 
在 给 定 的 范围 内 随机 选取 一 个 数 ， 然 后 来 猿 这 个 随机 数 是 多 少 ， 猜 对 了 直接 退出 ， 猜 错 了 系 
统 则 提示 猜 的 数字 与 随机 数 相 比 是 大 了 还 是 小 了 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


guessNum.py 的 代码 如 下 : 


Python Mż% E 8 EA 


输入 :wq， 保 存 guessNum.py. guestNum 先 指 定 了 一 个 1~100 的 随机 数 。 然 后 开始 猜 这 
个 随机 数 是 多 少 ， 一 般 来 说 猜 5 次 左右 就 可 以 猜 出 来 。 如 果 能 一 次 猜 到 这 个 随机 数 ， 有 这 人 么 
逆 天 的 运气 还 是 赶紧 买 几 注 彩 票 试 试 吧 。 执 行 命令 : 
python guestNum.py 


得 到 的 结果 如 图 2-15 所 示 。 


TJ EE HLZ 
-100 


be 


i 


kingêdebian:~/code/crawler$ [| 


2-15 run guessNum.py 
试 一 下 ， 要 猜 多 少 次 才 会 猜 对 这 个 随机 数 。 
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一 般 来 说 ， 纯 粹 只 有 循环 而 没有 中 断 循 环 的 情况 很 少见 〈 特 别 是 在 while 循环 中 ) 。 大 


多 都 是 配对 出 现 的 ， 所 以 熟悉 了 循环 还 必须 掌握 中 断 循环 的 方法 。 


2.2.5 ”异常 处 理 一 一 try except 


要 求 输入 的 数据 不 符合 要 求 ， 访 问 列 表 、 元 组 下 标 超 出 范围 ， 根 据 key 访问 字典 中 的 
key 值 却 发 现 这 个 key 不 存在 …… 编 程 时 总 会 遇 上 种 种 意外 。 有 些 编程 语言 在 碰 到 程序 执行 
意外 错误 时 ， 系 统 提 示 错 误 ， 然 后 退出 程序 。 当 然 ，Python 也 是 这 样 处 理 的 ， 但 不 同 的 是 
Python 还 给 出 了 其 他 的 选择 。 

在 Python 中 ， 用 try 来 测试 可 能 出 现 异 第 的 语句 ， 然 后 用 except 来 处 理 可 能 出 现 的 异 
T try except 的 表达 形式 如 下 : 


意思 是 ， 和 尝试 执 行 语句 ， 如 果 出 现 某 个 异常 则 怎么 做 。 因 为 同一 个 语句 可 能 出 现 不 同 的 
异常 ， 所 以 也 会 给 出 不 同 的 解决 方法 。 另 外 ，try 还 可 以 配 以 else、finally 语句 一 起 使 用 ， 不 
过 这 种 情况 比较 少 ， 有 兴趣 的 朋友 可 以 目 行 google 用 法 。 


【示例 2-10】 以 常见 的 输入 数据 异常 为 例 ， 编 写 testTryInputpy， 打 开 Putty 连接 到 
Linux， 执 行 命令 : 


testTryInput.py 的 代码 如 下 : 


Python MERK ) 


输入 :wq， 保 存 testTryInput.py. testTryInput.py 目的 是 创建 一 个 数字 列表 ， 在 创建 过 程 中 
SIAM PT ite: 


得 到 的 结果 如 图 2-16 所 示 。 
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列表 下 标 [-10,9]: EXIT 
输入 错误 ， 列表 下 标 是 一 个 整数 


kingêdebian:~/code/crawler$ || 


2-16 run testTryInput.py 


这 个 程序 怠 是 针对 输入 出 现 的 异 前 和 访问 列表 越界 的 异 币 给 出 了 解决 方案 。 编 程 过 程 中 
会 遇 上 各 种 各 样 的 寞 肖 。 考 虑 周到 一 点 ， 思 维 续 密 一 点 ， 善 用 try 一 点 ， 程 序 的 健壮 性 束 
pied 


2.2.6 ”导入 模块 一 一 import 


个 人 看 来 ，Python 最 大 的 优点 不 是 简单 易学 ， 而 是 其 强大 的 模块 功能 。 前 和 看 写 的 一 个 程 
序 ， 后 面 就 可 以 将 它 当成 一 个 模块 导入 现在 的 程序 ， 取 其 精华 弃 其 糟粕 地 随意 使 用 。 最 理想 
的 情况 是 任何 一 个 功能 ， 只 要 写 一 次 ， 以 后 所 有 人 都 可 以 任 其 调用 。 代 码 重 用 性 高 得 可 怕 ， 
而 且 Python 还 可 以 根据 需求 将 C、C++、Java 等 程序 作为 模块 ， 随 意 取 用 。 这 是 为 什么 
Python 被 称 之 为 胶水 语言 的 原因 。 

Python2 的 标准 模块 〈 一 般 也 叫 Python 标准 库 ) 是 安装 Python 时 目 融 的 模块 ， 具 体 请 参 
考 网 页 https://docs.python.org/2.7/py-modindex.html。 它 包含 了 几乎 所 有 的 常用 功能 。 如 果 觉 
得 不 够 ， 没 关系 ， 可 以 用 pip 来 安装 第 三 方 的 模块 ， 这 个 模块 库 就 已 经 非常 强大 了 。 如 果 还 
不 够 ， 也 没关系 ， 还 有 强大 的 github， 全 世界 的 Pyther 在 背后 支持 你 。 找 到 适用 的 功能 程序 
导入 到 目 己 程序 里 就 可 以 了 。 对 别人 程序 极度 不 放心 ， 非 要 目 力 更 生 也 行 ， 那 就 辛苦 一 下 ， 
自己 写 个 程序 做 自己 独 有 的 模块 吧 。 

模块 导入 的 几 种 方式 如 下 ， 可 根据 需要 目 行 选择 : 
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每 次 使 用 print 打印 时 ， 总 是 同一 个 颜色 。 能 不 能 使 用 不 同 的 颜色 打印 呢 ? 当然 可 以 ， 第 
三 方 模块 库 里 就 有 相关 的 模块 。 只 需要 使 用 pip 安装 即 可 ，github 仔细 找 找 应 该 也 能 找 得 
到 。 在 这 里 自力更生， 目 己 动手 写 一 个 最 符合 目 己 要 求 的 彩色 打印 的 print。 


【示例 2-11】 编 写 testImportColorPrint.py， 将 它 作 为 模块 导入 到 其 他 的 python 程序 中 使 
用 。 打 开 Putty， 连 接 到 Linux， 执 行 命令 : 


testImportColorPrint.py 的 代码 如 下 : 


#2 Python 基础 


输入 :wq， 保 存 testImportColorPrint.py。 这 里 只 写 入 了 黑色 、 红 色 、 绿 色 、 黄 色 、 赣 色 和 和 
白色 这 几 种 颜色 。 如 需 添 加 其 他 的 颜色 请 目 行 google 一 下 。 执 行 命令 : 


得 到 的 结果 如 图 2-17 Aras. 


king@debian: ~/code/crawlers thon test rtColorPrint. black "I'm black" 
king@debian:~/code/crawler$ python testImportColorPrint.p red "I'm red” 

Eg Hs) ED Ea eu US A F me 

king@debian:~/code/crawler$ python testImportColorPrint.py green "I'm green" 
=p AY) a 二 ML, JT KO A E -|- 


king@debian:~/code/crawler$ python testImportColorPrint.py yellow "I'm yellow" 
mi ARI ERE XO, JT for Cod!) A 


king@debian: ~/code/crawler$ hon test rtColorPrint. white "I'm white” 


king@debian:~/code/crawlers [| 


2-17 run testImportColorPrint.py 


彩色 打印 已 经 实现 了 (白色 打印 时 因为 背景 色 也 是 白色 ， 所 以 显示 不 明显 ) ， 下 面 是 将 
testImportColorPrint.py 当 作 模块 导入 到 其 他 Python 程序 中 供 其 使 用 。 


【示例 2-12) 无 须 太 复杂 ， 写 个 最 简单 的 testImport.py， 只 要 能 将 testImportColorPrint.py 
当成 模块 导入 使 用 即 可 。 执 行 命令 : 
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testImport.py 的 代码 如 下 : 


输入 :wq， 保 存 testImport.py。testImport.py 尝试 调用 testImportColorPrint.py 脚本 作为 模 
块 ， 调 用 该 脚本 的 类 放 到 目 己 的 脚本 中 执行 。 执 行 命 令 : 


得 到 的 结果 如 图 2-18 所 示 。 


wp 开始 彩色 打印 
pmp 开始 彩色 打印 
py 开始 彩色 打印 
输入 的 颜色 有 效 ,开始 彩色 打印 
aaa 开始 彩色 打印 


king@debian:~/code/crawlers [| 


2-18 ”导入 模块 测试 


He OS 。 将 Python 程序 当成 模块 导入 的 先决 条 件 是 ， 这 两 个 程序 在 同一 目录 下 。 或 者 将 模块 化 的 
程序 (这 里 就 是 testImportColorPrint.py) 路 径 加 入 到 Python 的 系统 路 径 中 。 是 不 是 很 简 
单 呢 ? 其 实 Python 就 是 这 么 简单 。 
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C、C++、jJava、Ruby、Perl、Lisp…… 在 笔者 所 知 的 编程 语言 之 中 ， 所 有 的 程序 都 是 由 
国 数 和 类 组 成 的 。 可 以 说 任何 程序 里 面包 含 的 不 是 函数 就 是 类 ，Pyther 当然 也 不 例外 。 


2.3.1 函数 


曾经 有 一 名 非常 出 名 的 话 是 In Unix Everything Is A File, Æ Unix 中 所 有 的 一 切 都 是 文 
件 。 在 这 里 可 以 借鉴 一 下 ，In Python Everything Is A Function， 在 Python 程序 中 ， 所 有 的 一 
切 都 是 函数 。 这 是 典型 的 C 语言 写法 ， 把 所 需 的 功能 都 写成 一 个 一 个 的 函数 ， 然 后 由 函数 调 
用 函数 。 依 次 类 推 ， 最 终 完 成 整个 程序 的 功能 。 

还 记得 上 节 提 过 的 暴力 破解 吗 ? 不 管用 什么 工具 ， 暴 力 破解 都 少不了 一 个 合适 的 字典 
(此 字典 非 咎 字典 ， 这 里 的 字典 指 的 是 一 个 包含 密码 的 文件 ， 也 就 是 一 个 密码 集 ， 而 不 是 
Python 的 变量 类 型 ) 。 当 然 网 上 有 很 多 的 密码 字典 可 供 下 载 ， 但 它们 要 么 太 大 裔 历 一 次 需要 
太 多 的 时 间 ， 要 么 没有 针对 性 根本 就 不 包含 所 需 的 密码 。 如 果 已 知 了 一 些 可 能 是 密码 的 字符 
串 ， 完 全 可 以 根据 已 知 条 件 用 程序 编写 有 针对 性 的 字典 出 来 ， 这 样 会 节省 很 多 时 间 。 


【示例 2-13 】 现 在 来 编写 一 个 简单 的 程序 makePasswordFileFunction.py， 创 建 一 个 有 针对 
性 的 专用 密码 字典 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


makePasswordFileFunction.py 的 代码 如 下 : 


Python Mekk ) 


#28 Python 基础 


Python MERRE 


( $2 Python 基础 


Python MEERE 】 


第 2 章 Python 基础 


输入 :wq， 保 存 makePasswordFileFunction.py. makePasswordFileFunction.py 稍微 复杂 一 
点 点 ， 它 的 作用 就 是 根据 用 户 输 入 的 “密码 元 素 ” 来 创建 一 个 字典 列表 。 该 脚本 将 输入 的 元 
素 根据 一 定 的 规则 修改 、 添 加 后 当 作 新 元 素 添 加 到 元 素 列 表 中 去 。 最 后 将 元 素 列 表 排 列 组 合 
得 到 最 后 的 字典 列表 。 执 行 命令 : 


得 到 的 结果 如 图 2-19 所 示 。 


EE ' '] 
SAMARA AR I. u 
共有 密码 0 个 
尚未 创建 密码 文件 
输入 选项 :|] 


2-19 run makePasswordFileFunction.py 


ai C 语言 的 写法 好 处 就 是 关系 简单 明了 ， 函 数 调 用 一 目 了 然 。 但 如 果 调 用 的 函数 过 多 ， 
HEAHEA T- 简单 功能 的 程序 还 无 妨 ， 稍 大 一 点 项 目 就 有 些 吃力 了 。 


£ 元 | 不 要 添加 大 多 的 “密码 元 素 ”， 这 个 程序 只 是 利用 了 Python 的 模块 ， 没 有 优化 算法 。 如 


果 输 入 的 “密码 元 素 ”超过 了 20 个， 那么 创建 密码 字典 的 时 间 会 非常 的 长 。 


2.3.2 2 


既然 有 了 In Python Everything Is A Fcuntion, “498424 In Python Everything Is A Class. 
这 种 C++ 的 写法 就 是 把 所 有 相似 的 功能 都 封装 到 一 个 类 里 。 最 理想 的 情况 是 一 个 程序 只 有 一 
个 主 程序 ， 然 后 在 主 程序 里 实例 化 类 。 


【示例 2-14 】 还 是 以 编写 密码 字典 为 例 ， 将 makePasswordFileFunction.py 改编 成 
makePasswordFileClass.py。 打 开 Putty 连接 到 Linux， 执 行 命 令 : 


makePasswordFileClass.py 的 代码 如 下 : 
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Python WERKA j 


#2 Python 基础 


Python W 28/1 R KAR 


输 入 :wq ， 保存 makePasswordFileClass.py 。 makePasswordFileClass.py 和 
makePasswordFileFunction.py 实质 上 没什么 区 别 ， 只 是 一 个 使 用 的 是 C 语言 风格 的 函数 调 
用 ， 一 个 使 用 的 是 C++ 风格 的 类 实例 化 。 执 行 命令 : 


得 到 的 结果 如 图 2-20 所 示 。 


:退出 程序 
:输入 密码 原始 字 符 让 
BS Ree Te 


:整理 原始 密码 列表 
:改变 默认 密码 长 度 (6-16) 
建 灾 玛 列表 


aa. ' a | 
Uy Ree: u 
共有 密码 0 个 
尚未 创建 密码 文件 
输入 选项 :|] 


2-20 run makePasswordFileClass.py 
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执行 结果 完全 一 样 。 这 种 C++ 的 写法 好 处 就 是 调用 过 程 简单 ， 不 再 关心 类 具体 的 实现 过 
程 ， 只 需要 调用 其 功能 即 可 ; 但 随 之 而 来 就 是 类 的 继承 、 函 数 重 载 等 麻烦 。 这 种 写法 在 写 大 
项 目 时 可 能 非常 有 用 。 个 人 写 小 程序 也 行 ， 那 就 没 那么 多 优势 了 。 

GAN 之 个 放权 还 在 个 问题 就 是 在 创建 密码 文件 前 并 没有 估算 磁盘 剩余 空间 是 否 足够 。 一 般 的 
本 解决 办 法 是 先 估算 密码 文件 的 大 小 ， 然 后 创建 一 个 大 小 相同 的 空 文件 。 能 创建 成 功 则 继 
续 运 行程 序 ， 不 能 则 抛 出 异常 。 


D.L python 代码 格式 


Python 是 一 门 新 兴 的 编程 语言 ， 在 格式 方面 与 其 他 大 众 语言 相差 不 大 ， 但 也 有 它 独特 之 
处 ， 尤 其 是 代码 缩 进 。 在 其 他 的 编程 语言 中 ， 代 码 缩 进 大 多 是 为 了 美观 ， 程 序 、 函 数 的 开始 
结束 都 是 由 花 括 号 来 控制 的 。 而 在 Python 中 却 不 一 样 ， 程 序 、 代 码 块 的 开始 结束 都 是 由 缩 进 
来 控制 的 。 所 以 ， 首 先 要 熟悉 的 束 是 Python 的 代码 缩 进 。 


2.4.1 Python 代码 缩 进 
Python 的 缩 进 一 般 来 说 是 4 个 空格 ， 先 严格 按照 这 种 缩 进 方法 来 写 个 测试 代码 。 


以 上 的 代码 中 ----| 代 表 4 个 空格 。 这 才 写 了 个 开头 就 得 40 个 空格 。 要 是 Python 只 能 这 样 
写 ， 那 笔者 还 是 宁愿 选择 C 或 者 C++。 好 在 还 有 备用 方案 ， 可 以 用 Tab EKER 4 个 空格 。 
这 样 的 好 处 就 是 少 按 了 很 多 次 空格 ， 坏 处 就 是 代码 不 好 移植 。 在 这 人 台电 脑 上 可 以 运行 的 程 
序 ， 换 台电 脑 可 能 就 无 法 直接 使 用 了 。 

既然 变通 了 ， 那 就 变通 到 底 好 了 。 实 际 上 这 也 是 目前 流行 的 做 法 ， 在 自己 的 代码 编辑 器 
上 将 Tab 键 设置 成 4 个 空格 就 可 以 了 。 比 如 Windows 下 的 notepad++ 就 可 以 在 “设置 | 首选 
项 | 语言 ”菜单 中 选中 以 空格 蔡 代 。 其 他 的 Python IDE 中 都 有 类 似 的 设 定 ， 目 行 摸索 一 下 就 
可 以 了 。Linux 下 一 般 用 的 都 是 vi， 那 就 更 加 简单 了 。 在 /etc/vim/vimrc 或 者 ~/.vim/vimrc 中 添 
加 代码 : 


| 有 的 Vi 默认 将 tabstop 定义 成 了 8 个 空格 。 
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Python 每 行 代码 前 的 缩 进 都 有 语法 和 尿 辑 上 的 意义 。 在 严格 要 求 的 代码 缩 进 之 下 ， 代 码 
非 间 整齐 规范 ， 人 质心 悦目 ， 提 高 了 可 读 性 ， 在 一 定 程度 上 也 提高 了 可 维护 性 。 

至 于 Python 的 缩 进 规则 很 集 单 。 休 单 说 就 是 ， 同 一 代码 块 纵 向 对 齐 。 同 级 别 函 数 ( 不 存 
在 调用 关系 的 ) 纵 同 对 章 ， 每 次 对 齐 都 是 4 个 空格 的 倍数 。 如 果 违 反 这 些 规 则 ，Python 是 不 
会 工作 的 ， 只 会 给 一 条 冷冰冰 的 寞 瘦 通 知 : SyntaxError: invalid syntax. 


2.4.2 Python 命名 规则 


对 于 给 类 、 函 数 、 变 量 取 名 ， 只 要 不 违法 命名 规则 ， 取 任何 名 字 都 是 可 以 的 。 要 是 不 明 
白 类 、 函 数 、 变 量 的 作用 不 是 还 有 注释 吗 ? 的 确 是 这 样 的 。 但 如 果 能 “ 望 名 生 义 ” 那 又 何必 
去 添加 多 余 的 注释 昵 ?” 男 外 ， 统 一 的 命名 法 也 令 程序 看 起 来 先 心 悦目 。 编 写 代码 不 能 以 书法 
让 人 愉悦 ， 那 束 以 名 字 和 格式 让 人 愉悦 吧 。 


1 . 匈牙利 命名 法 


据说 匈牙利 命名 法 是 一 位 叫 Charles Simonyi 的 匈牙利 程序 员 发 明 的 ， 后 来 他 在 微软 待 
了 几 和 年， 于 是 这 种 命名 法 就 通过 微软 的 各 种 产品 和 文档 资料 癌 世 界 传播 开 了 。 这 种 命名 法 的 
出 发 点 是 把 变量 名 按 : 属性 + 类 型 + 对 象 描述 的 顺序 组 合 起 来 ， 以 使 程序 员 定 义 变 量 时 对 变量 
的 类 型 和 其 他 属性 有 直观 的 了 解 。 

这 种 命名 方法 的 确 很 好 。 可 惜 的 是 ，Python 的 参数 并 不 像 C、C++、Java 一 样 ， 声 明 变 
量 无 须 指 定 变 量 类 型 。 而 且 在 没 用 到 Python GUI 编程 前 也 不 会 遇 到 属性 、 对 象 什么 的 ， 所 以 
这 种 命名 法 还 是 等 到 使 用 GUI 编程 时 再 使 用 吧 。 


2 . 驼峰 命名 法 


骆 能 式 命名 法 〈Camel-Case) 又 称 驼 峰 命 名 法 ， 是 计算 机 程序 山 写 时 的 一 套 命 名 规则 
(惯例 ) 。 正 如 它 的 名 称 CamelCase 所 表示 的 那样 ， 是 指 混合 使 用 大 小 写字 母 来 构成 变量 和 
图 数 的 名 字 。 

骆驼 式 命名 法 就 是 当 变 量 名 或 函 式 名 是 由 一 个 或 多 个 单词 连 在 一 起 ， 而 构成 的 唯一 识别 
字 时 ， 第 一 个 单词 以 小 写字 母 开 始 :第 二 个 单词 的 首 字母 大 写 或 每 一 个 单词 的 首 字母 都 采用 
大 写字 母 ， 例 如 : myFirstName、myLastName， 这 样 的 变量 名 看 上 去 就 像 骆驼 峰 一 样 此 起 彼 
伏 ， 故 得 名 。 能 峰 命 名 法 又 分 为 小 驼峰 命名 法 和 大 驼峰 命 名 法 。 

变量 和 函数 一 般 用 小 驼峰 法 标识 。 驼 峰 法 的 意思 是 ， 除 第 一 个 单词 之 外 ， 其 他 单词 首 字 
FKS. S: 

def getUrl 

urlSrc = u‘http://ww.baidu.com’ 


变量 urlSre 4-7 in EAA) Ss, J MRA FERS. 
相 比 小 驼峰 法 ， 大 能 峰 法 把 第 一 个 单词 的 首 字 母 也 大 写 了 ， 有 时 它 也 被 称 之 为 由 斯 卡 
(pascal) Mm. WHT. $W: 
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Class MyLog (object): 


3 . Guido 推荐 的 命名 规则 
Python 之 父 Guido 推荐 在 python 中 使 用 的 命名 方法 。 如 表 2-1 所 示 。 
表 2-1 PythonName 


Type Public Internal 


Modules | tow. with under | tower with under 
Packages | tow with under | 
Exceptions | cap words | 


Global/Class Constants | CAPS TITH UNDER | _CAPS_WITH_UNDER 
Global/Class Variables 


Method Names low with under() _lower with under() (protected) or 
_ lower with under() (private) 

Function/Method low with under 

Parameters 


Local Variables 


命名 约定 如 下 : 


@ rig “AZ (Internal) ”表示 仅 模 块 内 可 用 ， 或 者 在 类 内 是 保护 或 私有 的 。 

@ 用 单 下 划 线 ( ) 开 头 表 示 模 块 变量 或 函数 是 protected 的 (使 用 import * from 时 不 会 
包含 ) 。 

@ 用 双 下 划 线 (_) 开 头 的 实例 变量 或 方法 表示 类 内 私有 。 

@ 将 相关 的 类 和 顶级 函数 放 在 同一 个 模块 里 ， 不 像 Java， 没 必要 限制 一 个 类 一 个 模 
块 。 

© 对 类 名 使 用 大 写字 母 开 头 的 单词 (如 CapWords， 即 Pascal 风格 ) ， 但 是 模块 名 应 
该 用 小 写 加 下 划 线 的 方式 (如 lower with under.py) ， 尽 管 已 经 有 很 多 现存 的 模块 
使 用 类 似 于 CapWords.py 这 样 的 命名 ， 但 现在 已 经 不 鼓励 这 样 做 ， 因 为 如 果 模 块 名 
碰巧 和 类 名 一 致 ， 这 会 让 人 困扰。 


以 上 的 三 种 命名 规则 ， 可 以 任 选 一 种 或 者 组 合 使 用 ， 并 没有 强制 要 求 。 理 论 上 来 说 ， 选 
择 Python 推荐 的 命名 规则 比较 好 ， 这 也 是 Google 推荐 的 Python 命名 规则 。 但 这 事 也 可 以 这 
样 ， 你 拿 看 饮品 质问 店家 为 什么 上 向 写 看 建议 零售 价 3 块 ， 你 非 要 卖 我 5 块 ， 店 家 可 以 理 直 
气 壮 地 回复 ， 我 不 接受 这 个 建议 。 你 也 可 以 不 接受 Google 建议 ， 选 择 日 己 襄 欢 的 命名 方法 束 


Instance Variables low_with under _lower_with under (protected) or __lower_with under 
(private) 
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好 ， 只 要 目 己 能 看 懂 ， 交 流 无 障 但 就 可 以 了 。 


2.4.3 Python 代码 注释 

一 个 好 的 程序 员 ， 为 代码 添加 注释 是 编码 时 必须 要 做 的 ， 但 要 确保 注释 中 要 说 明 的 都 是 
重要 的 事情 ， 让 其 他 人 看 一 眼 就 知道 是 干什么 用 的 。 注 释 在 任何 语言 的 代码 中 都 非常 重要 ， 
没有 哪 一 种 语言 是 完全 不 需要 注释 的 。 在 Python 中 ， 注 释 还 有 其 他 的 作用 。Python 中 的 注释 
分 为 特殊 注释 、 单 行 注释 和 多 行 注释 。 


1 . Python 特殊 注释 


在 所 有 的 Python 代码 开头 都 有 这 两 句 CHE Windows 中 写 代 码 可 以 不 用 第 一 行 注释 ， 但 
为 了 移植 方便 ， 让 程序 能 直接 在 Linux 下 运行 还 是 加 上 这 行 比 较 好 )。 

以 上 特殊 注释 的 第 一 行 目的 是 指明 Python 编译 器 位 置 。 第 二 行 则 指定 了 该 程序 使 用 的 字 
和 从 编码。 指定 字符 编码 还 可 以 写成 : 


只 能 写成 这 两 种 形式 ， 字 符 编码 可 以 任 选 ， 但 格式 一 个 字符 都 不 可 以 错 。 
2 . Python 单行 注释 


单行 注释 很 价 单 。 不 管 在 代码 的 任何 位 置 ， 只 要 是 # 之 后 的 都 是 注释 。 但 仅 限 于 本 行 之 
内 ， 不 得 换行 。 单 行 注释 的 代码 如 下 : 


单行 注释 不 需要 刻意 地 对 齐 ， 避 免 出 现 SyntaxError: invalid syntax 的 寞 常 。 
3 . Python 多 行 注释 


Python 中 的 多 行 注释 采取 的 是 三 个 单 引 号 "或 者 三 个 双 引 号 ””。 如 果 多 行 注释 紧 跟 着 定 
义 类 或 者 定义 函数 之 后 则 自动 变 成 了 该 类 或 者 函数 的 doc string。 什 么 是 doc string Ye? 简单 
地 说 就 是 模块 、 类 、 函 数 的 功能 注释 。 


【示例 2-15】 写 个 简单 的 例子 ， 一 试 就 清楚 了 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


testAnnotation.py 的 代码 如 下 : 


#2 Python 基础 


在 testAnnotation.py 中 ， 第 17 行使 用 的 是 单行 注释 ， 第 19 行使 用 的 是 多 行 注释 。 其 他 
的 则 是 类 和 函数 的 doc string。 至 于 doc string 怎么 显示 也 挺 简单 的 。 打 开 Putty 连接 到 
Linux， 执 行 命令 : 


执行 结果 如 图 2-21 所 示 。 


king@debian:~$ cd code/crawler 

king@debian:~/code/crawler$ python 

Python 2.7.9 (default, Mar 1 2015, 12:57:24) 

[GCC 4.9.2] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 
>>> import testAnnotation 

>>> print testAnnotation.Annotation. doc __ 


这 是 一 个 用 户 示 范 注 释 的 类 ， 

多 行 注释 如 果 在 类 或 者 函数 的 定义 之 后 ， 
FERRER i doc stringe 

这 里 注释 的 是 该 类 的 功能 性 说 明 


>>> print testAnnotation.Annotation.run. doc _ 


函数 里 的 doc string, 
这 里 注释 的 是 该 函数 的 功能 性 说 明 
注释 用 单 引 号 和 双 引 号 没有 任何 区 别 


>>> | 


2-21 注释 &doc string 


69 


Python WiK ERKA 


TERE AY AA Be FES REIN AN AGERE, S REAA N, AE A AEP FSI 
Ls RMA ES HTS SET SPR, WRT OCB ABA TED ISA, ALAC ATTA 
注释 不 注释 了 。 


2.5 python 调试 


调试 是 Python 编程 中 非常 重要 的 一 环 。 RPP TT label, AAMKE o WA Ab Ach 
加 print 和 log 找 出 错误 点 ， 再 慢 慢 地 反 推 ， 是 可 以 找到 问题 解决 问题 的 。 但 是 有 更 简单 的 方 
法 为 什么 非得 舍 易 取 难 呢 ? 

在 Linux 和 Windows 平台 有 很 多 的 第 三 方 调试 工具 ， 一 般 的 Python IDE 基本 也 上 自 珊 了 
调试 工具 。 工 具 太 多 了 反而 不 好 选择 ， 而 且 也 不 是 随手 都 能 找到 第 三 方 调试 工具 的 。 这 里 仅 
示范 手头 上 必定 有 的 ，Python 目 市 的 调试 工具 。 其 他 的 第 三 方 调试 工具 都 大 同 小 异 ， 熟 悉 了 
最 简单 的 ， 其 他 的 也 就 无 师 目 通 了 。 


2.5.1 Windows 下 IDLE 调试 

先 写 个 简单 的 程序 来 做 示例 。 既 然 是 调试 ， 最 好 的 选择 英 过 于 多 次 调用 函数 的 阶乘 了 ， 
这 个 程序 简单 又 明显 ， 适 合用 来 做 示例 。 打 开 IDLE， 单 击 菜单 栏 的 FileNew File。 创 建 一 个 
新 文档 。 编 辑 代 码 如 图 2-22 所 示 。 


else: 
return ntfac(n-1)} 


Se 人 这 是 一 个 求 阶乘 的 程序 \n 
input ("请 输入 一 个 正 


j ， 要 求 输入 一 个 正 整 数 ， 人 退出 重 来 吧 。*) 
tC Kal = Ka a fac(n))) 


2-22 testWinDebugFactorial.py 


单 击 荣 单 栏 FilelSave As， 选 择 保存 位 置 后 将 文件 保存 为 testWinDebugFactorial.py. F hi 
开始 调试 testWinDebugFactorial.py. 
单 击 IDLE 菜单 栏 的 RunlPython Shell， 打 开 Python Shell, WK 2-23 所 示 。 
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à testWinDebugFactorial.py - C\Users\king\Desktop\testWinDebugFactorial.py (.. Ec =) imme: Sl 


File Edit Shell Debug Options Window Help File Edit Format |Run| Options Window Help 


Python 2.7.11 (v2.7. 11: 6dlb6a68f7775, Dec 5 2015, 20:40:30) [NSC v. 1500 64 bit Í #!/usr/bin/env p Python Shell 
AND64)] on wins2 #-*- coding :GBE 
Type “copyright”, “credits” or “license()" for more information. ; Check Modale Alt+X 
>}> def leigh 
if n==1 or n Run Modala FS 
reti urn 1 


return | ntfacln-1) 


def main[): E 
print ( KE— PRB RAE in’) 
n= raw_input ERA TP ERA: ) 
try: 
n = int (n) 
cept Meer eerie 


print (° iN, ! FEMA- TEI REEE.) 
print C %dl = a shh facin))) 


name _ == "main: 


maini 


Ln: 22 Col: 0 


2-23 打开 Python Shell 


单 击 Python Shell 菜单 栏 的 Debug|Debugger。 打 开 Debug Control 窗口 ， 如 图 2-24 所 
示 。 


| & Python 2.7.11 § 


File Edit Shell | Debuc 
Python 2.7.11 ¢ 
AND64)] on vin 
Type “copyrigh 


bug) Options Window Help 


eee en eee 5 2015, 20:40:30) [MSC v.1500 64 bit ( = 


y Debugger 


File Edit Format Run Options Window Help 


#l/usr/bin/ eny python 
k=» coding:GBE =*= 


“ for nore information. 


Stack Viewer def fac{n); 
[DEBUG on] i if n==1 or re=0: 
>> | Autoropar Stack Viewer return 1 
else 


return n*facirm 1) 


def naint): E i 
print ( RE- AEMEHERE w) 
n= rav “input ("请 输入 PESI: ) 
try: 

n = int ín) 

except ValueError: 7 N 
print l 输入 销 误 ， BKinA—TtEBR: EXER’) 

print (' $d! = %d %(n,fac(n))) 


W Stack [ Source 
[” Locals [ Globals 


__ nance 


Ln: 22 Col: 0 


2-24 打开 Debug Control 


然后 在 IDLE 窗口 为 代码 添加 断 点 。 vate dias cae aioe ee 要 停顿 的 位 
置 。 一 般 在 函数 的 入 口 、 参 数 变化 的 行 添 加 。 这 里 只 在 fac 图 数 入 口 添加 一 个 断 点 。 单 击 fac 
KAA OT, FRR SEAL, TERE Set aon 如 图 2-25 所 示 。 
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#!/usr/bin/ env python 
#-»- coding:GBK -*- 


n = int (n) 

zcept va re 

print (’ 
print ( %d! = Sa 


main) — 


图 2-25 设置 断 点 


现在 可 以 开始 运行 调试 程序 了 ， 单 击 IDLE 窗口 菜单 栏 的 Run|Run Module， 如 图 2-26 所 
ZN o 


#!fusr/binfenv py Python Shell 


ANDG4)] on win32 #-*- coding:GBK 一 


Type “copyright", “credits” or “license” for more information. 
> 
[DEBUG ON] 
>>> 
RESTART: C:\User \Deskt opt est WinDebugF act orial. py 


ef facin): 
if n=l orn 
eturn ] 
olse: 
ceturn mefac(n-1) 


ef main): 
print 4” 这 是 一 个 RUN RI 


AN 


n= raw_input (请 给 入 一 个 正 
+ 


= n= int > 
except Value FORN 
MER = print Ç Te ERAN- TES: REEERE.) 
V Stack [ Source print (Sd! = Wa $in, facin))) 
Go | Step | Over | Out | Quit 
M Locals I Globals . ‘ 
if _ name ==" nain ': 
testWinDebugFactorial.py:4: «module» (J main) 


| bdb .run0, line 400: exec cmd in globals, locals = 
"_main_'.<module=(), line 4: def fac(n): 


Locals 
_builtins_ <module '_builtin_' (built-in)= = 
_doc None 
_file_ ‘CA \Users\\\\king\\\\Des...\\\testWinDebugFactorial.py’ 
_name_ '_main_' 
_package_ None = Ln: 22 Col: 0 


图 2-26 运行 调试 程序 


单 击 Debug Control 窗口 的 Go 按钮 ， 开 始 运 行程 序 ， 然 后 单 击 Debug Control 窗口 的 
Step 按钮 ， 逐 步 运 行程 序 。 如 果 需 跳出 循环 或 者 跳出 函数 ， 则 单 击 Debug Control 窗口 的 Out 
按钮 。Debug Control 窗口 中 的 Stack 检查 框 显 示 的 是 程序 当前 运行 位 置 ，Locals 检查 框 显 示 
的 是 当前 变量 的 值 ， 如 图 2-27 所 示 。 
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Python 2.7.11 (v2.7. 11:6dib6a68£775, Dec 5 2015, 20:40:30) [MSC v. 1500 64 bit ( <| 
| AMD64)] on win32 | 
Type “copyright”, “credits” or “license()“ for more information. 

>>> 

[DEBUG ON] 

>>> 


========== RESTART: C:\Users\king\Deskt op\test WinDebugFactorial. py ========== 
这 是 一 个 求 阶 乘 的 程序 
请 输 六 一 个 正 整 数 :4 


P 
M Stack [ Source 
M Locals 厂 Globals 
testWinDebugFactorial.py:5: fac() 


Go | Step | Over | Out | Quit 


‘bdb’.run(, line 400: exec cmd in globals, locals 
"_main_'.<module>(), line 21: main0 

1 main “.main0, line 17: print('%d! = %d' %(n,fac(n))) 
'_main_'.fac0, line 8: return n*fac(n-1) 
'_main_'.fac(), line 8: return n*fac(n-1) 


nm 


2-27 Debug Control 


通过 Debug 调试 很 容易 发 现 程序 中 的 错误 之 处 。 虽 然 这 个 Debug 工具 比较 简陋 ， 但 基本 
功能 都 还 齐全 ， 算 是 比较 好 用 的 一 委 Debug 工具 了 。 


2.5.2 Linux 下 pdb 调试 


Linux 下 Python 调试 工具 也 很 多 ， 但 最 简单 、 最 方便 的 可 能 就 是 pdb To pdb 功能 齐 
全 ， 使 用 方便 ， 使 用 过 gdb 的 朋友 会 对 它 非 常熟 悉 ， 它 们 的 命令 几乎 是 一 模 一 样 的 。 先 写 个 
示范 程序 ， 用 pdb 调试 一 下 。 


【示例 2-16】 打 开 Putty 连接 到 Linux， 执 行 命令 : 


testLinuxBugListExtremum.py 的 代码 如 下 : 


Python PSM SCAR 


testLinuxBugListExtremum.py 程序 让 用 户 输 入 一 组 整数 放 入 列表 中 ， 然 后 从 列表 中 挑选 
出 最 大 值 和 最 小 值 。 以 testLinuxBugListExtremum.py 为 例 ， 使 用 pdb 调试 。 

下 面 先 简单 地 介绍 一 下 pdb. pdb 在 Python 中 是 以 模块 的 形式 出 现 的 ， 它 是 Python 的 标 
准 库 。 可 以 在 Python 交互 环境 中 使 用 ， 如 图 2-28 所 示 。 
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king@debian:~/code/crawler$ python 

Python 2.7.9 (default, Mar 1 2015, 12:57:24) 

(GCC 4.9.2] on linux2 

Type "help", "copyright", "credits" or “license” for more information. 


>>> import pdb 

>>> import testLinuxBugListExtremum 

>>> pdb.run('testlinuxBugListExtremum.main') 
> <string> (1)<module>() 

(Pdb) 


2-28 ”模块 式 使 用 pdb 


也 可 以 在 程序 中 间 插 入 一 段 程 序 ， 相 当 于 在 一 般 IDE 里 面 打 上 断 点 ， 然 后 启动 debug, 
不 过 这 种 方式 是 hardcode 的 ， 如 图 2-29 所 示 。 


28 def getMaxNum(List): 


t 获 永 列表 十 最 大 人 


for i in List[i:]: 
if num <= i: 
num = i 
return num 


getMinNum(List): 
FRIJI HRA 
num = List[0) 
for i in List[1:]: 
if num >= i: 
num = i 
return num 


7 if name = ' main 
feg 一 getList () 
= getMaxNum (numList) 


pe 列 玫 中 国 大 值 为 :sd tmaxNum) 


2-29 ”程序 内 使 用 pdb 


将 pdb 放 入 程序 内 ， 在 运行 程序 时 。 运 行 到 pdb 行 后 就 暂停 了 ， 然 后 开始 运行 pdb FE 
序 。 这 种 方式 需要 改动 程序 ， 还 是 比较 肪 烦 。 

笔者 更 喜欢 最 后 一 种 方法 ， 命 令 行 司 动 目标 程序 ， 加 上 -m 参数 调用 pdb 模块 ， 如 图 2-30 
所 示 。 


king@debian:~/code/crawler$ python -m pdb testLinuxBugListExtremum.py 
> /mnt/disk/sync/code/crawler/testLinuxSugListExtremum.py <module> 
-> author _ = ‘hstking hstking@hotmail.com' 


Documented commands (type help <topic>): 


bt cont enable jump pp run unt 

C continue exit 1 q s until 
cl d h list quit step up 
clear debug help n E tbreak wW 
commands disable ignore next restart u whatis 
condition down j p return unalias where 


Miscellaneous help topics: 


exec pdb 


Undocumented commands: 


2-30 ”命令 调用 pdb 模块 


/5 


Python Wi EE KAR 


图 2-20 显示 了 pdb INIA ARS, IHR DLA tere IL: 


@ list: 显示 程序 ， 可 以 带 参 数 。 比 如 显示 第 4 list 5. 

break: 添加 断 点 。 比 如 在 第 5 行 添加 断 点 break 5， 在 getList 函数 添加 断 点 break, 
run: 开始 运行 程序 。 

step: 单 步 运行 ， 进 入 函数 内 部 。 

next: 单 步 运行 ， 不 进入 函数 内 部 。 

print: 显示 参数 。 

quit: 退出 pdb。 


下 面 开 始 调试 testLinuxBugListExtremum.py 程序 。 执 行 命令 : 


执行 结果 如 图 2-31 所 示 。 


king@debian:~/code/crawler$ hon -m testLinuxBugListExtremum. 
> /mnt/disk/sync/code/ a, Se py ( E ) <module> i ) 
oa = "hstking hstking@hotmail.com' 


numList = getList() 

maxNum = getMaxNum(numList) 

print (ua' 列 表 中 最 大 值 为 :sda' tmaxNum) 
minNum = getMinNum(numList) 


print (u' 列表 中 最 小 值 为 :$d' tminNum) 


(Pdb) break getList 
Breakpoint mir Want /disk/sync/code/crawler/testLinuxBugListExtremum.py:8 


(Pdb) break getMaxNum 
Breakpoint 2 at /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py:28 
oo break getMinNum 

at /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py:38 


Disp Enb Where 
keep yes at /mnt/disk/sync/code/crawler/testLinuxBugListExtre 


keep yes at /mnt/disk/sync/code/crawler/testLinuxBugListExtre 


breakpoint keep yes at /mnt/disk/sync/code/crawler/testLinuxBugListExtre 
mum.py:38 
(Pab) 0 


2-31 pdb 加 入 断 点 


执行 命令 run， 开 始 运 行程 序 ， 函 数 外 的 行使 用 next 单 步 运行 ， 到 了 函数 入 口 后 使 用 
step 单 步 运行 。 中 途 使 用 print 命令 随时 监视 变量 变化 ， 如 图 2-32 所 示 。 
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#28 Python 基础 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (15) getList () 


-> print (u' 结束 构建 列表 ， 请 按 回 车 ') 
(Pdb) 
结束 构建 列表 ， 请 按 回 车 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (16) getList() 


-> num = raw input(' 请 输入 一 个 整数 : ') 
(Pdb) 
请 输入 一 个 整数 : 10 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (17) getList () 
-> if num = ‘'; 
(Pdb) print num 


10 


(Pdb) next 
> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (19) getList () 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (20) qgetList () 
-> num = int (num) 

(Pdb) 

> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (25) getList () 
-> numList.append (num) 

(Pdb) 

> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (12) getrList () 
-> while num: 

(Pdb) print numList 

[10] 

(Pab) || 


2-32 调试 testLinuxDebugListExtremum.py 


调试 完毕 后 输入 quit， 退 出 pdb. pdb 没有 GUI， 用 起 来 似乎 没有 那么 直观 。 用 习惯 了 也 
还 挺 方便 的 。 如 果 偏 爱 GUI， 那 还 是 找 个 Python IDE IE, Eclipse + pydev 就 很 方便 了 。 也 是 
多 平台 通用 ， 除 了 块头 大 一 点 ， 没 什么 缺点 。 

注意 : pdb 是 Python 调试 工具 ， 它 也 是 Python 的 标准 模块 之 一 ， 所 以 也 可 以 用 import 
将 它 寻 入 到 程序 中 使 用 。 


2.6 本 章 小 结 


Python 的 知识 点 远 不 止 这 一 点 ， 但 读者 了 解 了 这 些 ， 又 有 一 点 其 他 编程 语言 的 基础 ， 基 
本 就 可 以 用 Python 来 解决 一 些小 问题 了 。 如 果 需 要 继续 深入 ， 请 目 行 参考 教程 或 目 行 
Google. Python 是 一 门 黏 性 非常 强 的 语言 ， 它 可 以 调用 别 的 语言 来 编写 目 己 的 模块 ， 用 来 弥 
补 上 自己 的 不 足 ， 因 此 也 被 称 为 胶水 语言 。 虽 然 Python 易学 难 精 ， 但 它 是 一 个 非常 有 用 的 编程 
语言 ， 通 用 各 大 平台 ， 值 得 投入 精力 深入 学 习 。 
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Python 的 基础 部 分 已 经 学 完了 ， 下 一 步 可 以 开始 写 Python 程序 了 。 因 为 Python 程序 无 
须 编译 直接 执行 ， 所 以 也 可 以 称 之 为 脚本 。 在 这 里 笔者 把 大 一 点 的 、 复 杂 点 的 Python 脚本 称 
之 为 程序 ， 把 简单 的 Python 程序 称 之 为 脚本 。 


3.1 九 九 乘法 表 


编写 程序 ， 由 简 到 难 。 似 乎 没有 比 九 九 乘法 表 更 简单 的 程序 了 吧 ， 那 就 从 九 九 乘法 表 开 
Wo Python 的 结构 集合 了 C 和 C++ 的 优点 ， 语 法 结构 也 相差 不 远 ， 在 编程 时 只 需 重 点 注 意 格 
式 〈 其 实 就 是 空格 ) 就 可 以 了 。 


3.1.1 Project 分 析 

九 九 乘法 表 ， 从 小 学 就 开始 学 习 ， 每 个 人 都 会 背 。 如 果 把 这 个 表格 排列 整齐 一 点 就 会 发 
现 它 呈现 出 一 个 边 长 为 9 的 直角 三 角形 。 这 个 图 形 从 左 到 右 横 问 是 呈 线 性 递 加 的 。 这 样 的 话 
给 出 一 个 for 循环 正 合 适 。 而 纵向 是 也 有 限 (9 行 ) 递 加 的 ， 再 给 出 一 个 for 循环 就 可 以 了 。 


3.1.2 Project 实施 
【示例 3-1 】 编 写 table9x9.py, FFF Putty 连接 到 Linux， 执 行 命令 : 


table9x9.py 的 代码 如 下 : 


#3 简单 的 Python 脚本 


输入 :wq， 保 存 table9x9.py。table9x9.py 用 于 打印 一 个 九 九 乘 法 表格 。 执 行 命令 : 


得 到 的 结果 如 图 3-1 所 示 。 


king@debian:~/code/crawler$ python table9x9.py 
开始 打印 9x9 的 乘法 表格 
1Xi= 1 
2X2= 4 
2X3= 6 3X3= 9 
2X4= 8 3X4=12 4X4=16 
2X5=10 3X5=15 4X5=20 5X5=25 
2X6=12 3X6=18 4X6=24 5X6=30 6X6=36 
2X7=14 3X7=21 4X7=28 5X7=35 6X7=42 TX7=49 


2X8=16 3X8=24 4X8=32 5X8=40 6X8=48 TX8=56 8x8=64 


2X9=18 3X9=27 4X9=36 SxX9=45 6X9=54 7X9=63 8X9=72 


king@debian:~/code/crawlers [| 


图 3-1 乘法 表 
十 几 行 的 代码 ， 如 果 愿 意 精 简 ， 甚 至 可 以 把 代码 压缩 到 十 行 以 内 。 足 够 简单 了 吧 。 
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OD 斐 波 那 契 数列 


斐 波 那 契 数列 (Fibonacci sequence) ， 又 称 黄 金 分 割 数 列 ， 因 数学 家 列 遇 纳 多 。 斐 波 那 
42 (Leonardoda Fibonacci ) 以 钢 子 繁殖 为 例子 而 引入 ， 故 又 称 为 “ 锡 子 数列 ”， 指 的 是 这 样 
一 个 数列 : 0、1、1、2、3、5、8、13、21、34…… 在 数学 上 ， 斐 波 那 契 数列 以 如 下 被 以 递归 
的 方法 定义 : F (0) =0、F (1) =1、F (n) =F(n-1)+F(n-2) (n>2, nEN*) 。 


3.2.1 Project 分 析 

从 斐 波 那 契 数 列 的 定义 上 可 以 看 出 ， 求 斐 波 那 契 数列 最 正统 的 方法 就 是 图 数 递 归 了 。 不 
过 ， 对 于 Python 而 言 ， 有 更 加 简单 的 方法 操作 。 这 得 益 于 Python 独 有 的 数据 类 型 一 一 列 
Ko Python 列表 可 以 使 用 append 方法 在 列表 的 尾部 退 加 数据 。 这 样 一 来 ， 求 斐 波 那 契 数列 就 
成 了 简单 的 加 法 游戏 ， 无 须 递 归 求 解 了 “〈 可 惜 C 语言 中 没有 变 长 数列 ， 否 则 在 C 语言 中 求 斐 
波 那 契 数列 也 简单 了 ) 。 


3.2.2 Project 实施 
【示例 3-2] 45 fibonacci.jpy， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


fibonacci.py 的 代码 如 下 : 


输入 :wq， 保 存 fibonacci.py. fibonacci.py 用 于 创建 一 个 定 长 列表 ， 该 列表 就 是 非 波 那 问 
数列 。 执行 命令 : 


得 到 的 结果 如 图 3-2 所 示 。 


king@debian:~/code/crawler$ python fibonacci.py 
请 输入 fibonacci 数 列 的 长 度 (3-50) :20 
输入 的 长 度 符 全 标准， 继续 运行 
得 到 的 fibonacci 数 列 为 : 
[0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584, 
4181] 
king@debian:~/code/crawlers |] 


3-2 fibonacci 数列 
Python 有 独特 的 列表 类 型 ， 在 获取 递归 队列 时 有 独特 的 优势 。 


3.3 pets 


将 理想 状态 绝对 无 误差 的 10 个 同样 的 小 球 从 1~10 标号 ， 然 后 随机 从 中 选 出 1 个 小 球 。 
如 果 选 取 的 次 数 足 够 多 ， 就 可 以 计算 各 个 小 球 被 选取 出 来 的 概率 。 编 写 一 个 Python 程序 来 算 
一 算 ， 看 看 老 天 偶 爱 哪个 数 。 


3.3.1 Project 分 析 


这 是 一 个 随机 数 的 问题 。Python 有 个 random 模块 ， 专 门 用 来 解决 这 类 问题 。 据 说 
Python 用 random 选取 出 来 的 随机 数 都 是 伪 随 机 数 。 不 过 也 没关系 ， 只 需要 算出 大 致 的 结果 
就 可 以 了 。 没 计算 之 前 ， 个 人 认为 每 个 球 被 选取 出 来 的 概率 都 一 样 。 下 面 就 来 算 算 看 。 
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第 3 章 简单 的 Python 脚本 


Python WERKA j 


3.3.2 Project 实施 
【示例 3-3] 475 ball.py, 4] Ff Putty 连接 到 Linux， 执 行 命令 : 


ball.py 的 代码 如 下 : 


A 
a 
= 
i 


得 到 的 结果 如 图 3-3 所 示 。 


#38 简单 的 Python 脚本 


king@debian:~/code/crawler$ python ball.py 


输入 测试 的 次 数 : 1000000 


king@debian:~/code/crawler$ || 


3-3 ” 选 球 概率 


果然 如 此 ， 每 个 球 选取 的 概率 差不多 。 选 取 的 次 数 越 多 ， 这 个 趋势 就 越 明 显 。 那 就 古 
说 ， 在 理想 状态 下， 所 有 球 被 选取 的 概率 是 一 样 的 。 


ie = 这 种 选取 小 球 概率 的 计算 方法 只 是 一 种 理想 状态 的 算法 。 类 似 于 丢 硬 币 出 现 正 反面 的 概 
率 ， 理 论 上 应 该 是 一 半 对 一 半 ， 但 实际 上 由 于 硬币 材质 的 缘故 ， 丢 硬币 的 次 数 越 多 ， 正 
反面 出 现 的 概率 差距 就 越 大 。 


3.6 读 写 文件 


读 写 文件 是 最 前 见 的 IO 操作 。Python 内 并 了 读 写 文件 的 函数 ， 用 法 和 C 是 兼容 的 。 在 
倒 盘 上 读 写 文件 的 功能 都 是 由 操作 系统 提供 的 ， 现 代 操 作 系 统 不 允许 普通 的 程序 直接 操作 人 厂 
盘 ， 所 以 ， 读 写 文件 就 是 请 求 操 作 系统 打开 一 个 文件 对 象 〈 通 币 称 为 文件 描述 符 ) ， 然 后 ， 
通过 操作 系统 提供 的 接口 从 这 个 文件 对 象 中 读 取 数据 〈 读 文件 ) ， 或 者 把 数据 写 入 这 个 文件 
对 象 〈 写 文件 ) 。 


3.4.1 Project 分 析 
Python 使 用 内 置 函数 open 来 读 写 文件 。 查 看 open 函数 的 帮助 文档 。 执 行 命令 : 


python 
help (open) 
执行 的 结果 如 图 3-4 所 示 。 
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Python Mż Ee E Sea 


Help on built-in function open in module _ builtin_: 


ls . ap 
open(name[, mode[, buffering]]) -> file object 


Open a file using the file() type, returns a file object. This is the 
preferred way to open a file. See file. _ doc for further information. 


Y 


3-4 help open 


3-4 中 的 Name 是 需要 操作 的 文件 名 ，mode 是 模式 。 这 个 模式 共有 7 种 ， 如 表 3-1 所 


表 3-1 Python Open Mode 


以 读 方式 打开 文件 ， 可 读 取 文 件 信 息 
以 写 方式 打开 文件 ， 可 疝 文件 写 入 信息 。 如 文件 存在 ， 则 清空 该 文件 ， 再 写 入 新 内 容 


这 7 中 模式 可 以 组 合 使 用 。 下 面 将 用 Python 创建 一 个 文件 ， 并 写 入 、 读 取 内 容 。 


以 追加 模式 打开 文件 ， 如 果 文 件 不 存在 ， 则 创建 


3.4.2 project 实施 
【示例 3-4] 4075 operaFile.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


operaFile.py 的 代码 如 下 : 


#3 简单 的 Python 脚本 


执行 命令 : 
e 
得 到 的 结果 如 图 3-5 所 示 。 


king@debian:~/code/crawler 
king@debian:~/code/crawler$ python operaFile.py 
创建 一 个 名 字 为 test .txt 的 文件 ， 并 在 其 中 写 入 Hello Python 
m txt 不 存在 

无 法 访问 test .txt: 没有 那个 文件 或 目录 
Wee ReS LHS AAS 


不 要 忘记 用 close 关 闭 文件 哦 
再 来 看 看 test .txt 是 否 存 在 ， 和 内 容 


-rw-r--r-- 1 king king 12 9 月 11 21:40 test.txt 
Hello Python 


如 何 避 免 open 文 件 失 败 的 问题 呢 ? 
使 用 with as 就 可 以 了 

test. txt 的 内 容 为 : :Hello Python 
king@debian:~/code/crawler$ 


3-5 Python 读 写 文件 


Python 对 文件 的 操作 跟 C 很 类 似 ， 但 功能 远 比 C 要 丰富 。 例 如 按 行 读 取 文 件 ， 多 行 读 取 
文件 等 等 。C 语言 的 优势 是 快 ，Python 的 优势 是 模块 丰富 。 


3.5 eee 


本 章 的 几 个 Python 小 程序 都 比较 简单 。 程 序 简单 没关系 ， 只 要 可 以 解决 问题 就 行 。 学 习 
Python 最 快 的 方法 就 是 多 写 程 序 ， 用 程序 解决 实际 问题 。Python 并 不 复杂 ， 多 写 、 多 做 、 多 
练 很 快 就 能 掌握 。 
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m4 


<Python 有 他 虫 吓 用 模块 > 


Python 最 强大 的 方 徊 就 体现 在 它 那 近乎 无 限 的 模块 库 上 。 相 信 没 有 人 能 熟悉 所 有 的 模块 
功能 ， 也 没 这 个 必要 。 只 需要 了 解 标 准 模 块 库 束 可 以 解决 大 部 分 的 问题 了 ， 特 殊 需 求 先 找 第 
三 方 的 模块 。 如 果 还 是 解决 不 了 问题 ， 那 就 到 github 磁 磁 运气 。 如 果实 在 是 运气 不 佳 ， 那 就 
目 己 动手 丰衣足食 吧 。Python 2.7 标准 模块 库 的 官方 文档 可 参考 https://docs.python.org/2.7/py- 
modindex.html。 本 革 只 讲解 与 网 络 候 忠 有关 的 常用 模块 。 


Python 标准 库 之 urllib2 模块 


涉及 网 络 这 块 ， 必 不 可 少 的 模块 就 是 urllib2 了 。 顾 名 思 义 这 个 模块 主要 负责 打开 URL 和 
HTTP 协议 之 类 的 ， 还 有 一 个 模块 叫 urllib， 但 它们 并 不 是 升级 版 的 关系。 具体 可 见 google 文 草 
Python: difference between urllib and urllib2， 讲 得 很 透彻 ， 这 里 就 不 午 复 了 。urllib2 模块 的 官方 文档 
可 参考 https://docs.python.org/2.7/library/urllib2.html#module-urllib2 。 


4.1.1 urllib2 请 求人 返回 网 页 
urllib2 最 简单 的 应 用 就 是 urllie2.urlopen 了 ， 函 数 使 用 如 下 : 


urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, 
context]]]]]] 


按照 官方 文档 ，urllib2.urlopen 可 以 打开 HTTP. HTTPS. FTP 协议 的 URL。 主 要 应 用 于 
HTTP 协议 。 它 参数 中 以 ca 开头 的 都 是 跟 身 份 验 证 有 关 ， 不 太 和 名 用 。data 参数 是 以 post 方式 
提交 URL 时 使 用 的 。 最 常用 就 只 有 URL 和 timeout BAS. url 参数 是 提交 的 网 络 地 址 〈 地 
址 全 称 ， 前 端 需 协 议 名 ， 后 端 需 端 口 ， 比 如 http://192.168.1.1:80), timeout 是 超时 时 间 设 置 。 

ph BORE MRA 3 个 额外 的 使 用 方法 。geturl0 函 数 返 回 response 的 url 信息 ， 常 用 于 url 
HE TPO. info()es ZOUK] response 的 基本 信息 。getcode0 国 数 返 回 response 的 状态 代 
人 码 ， 最 常见 的 代码 是 200 服务 器 成 功 返 回 网 页 ，404 请 求 的 网 页 不 存在 ，503 服务 器 暂时 不 可 
用 。 


#48 Python 爬虫 常用 模块 


【示例 4-1】 测 试 使 用 urllib2 模块 打开 百度 的 首页 。 编 写 testUrllib2.py， 打 开 Putty 连接 
到 Linux， 执 行 命令 : 


testUrllib2.py 的 代码 如 下 : 


输入 :wq， 保 存 testUrllib2.py。testUrllib2.py 调用 urllib2 模块 请 求 百 度 的 主页 ， 显 示 返 回 
的 信息 并 将 服务 器 答复 的 数据 保存 到 baidu.txt 中 以 备查 询 。 执 行 命令 : 


Python 网 络 息 虫 实战 


得 到 的 结果 如 图 4-1 所 示 。 


king@debian:~/code/crawler$ python testUrllib2.py 
获取 ur1 信 息 ， response.geturl () 
: http://www.baidu.com 


获取 返回 代码 ，z*esponse.getcode () 
et | | ra: 


到 返回 信息 ，zesponse.info 
: Date: Thu, 30 Jun 2016 04:41:00 GMT 
Content-Type: text/html; charset=utf-8& 

ransfer-Encoding: chunked 
Connection: Close 

ary: Accept-Encoding 
Set-Cookie: BAIDUID=D411AFOBE6CFSC9S7BFE D707E3BD:FG=1; expires=Thu, 31-Dec-3 
7 23:55:55 GMT; max-age=2147483647; pat iomain=.baidu.com 
Set-Cookie: BIDUPSID=D411AFOBE6CF9C97BE BD707E3BD; expires=Thu, 31-Dec-37 23 
:55:55 GMT; max-age=2147483647; path=/: sin=.baidu.com 
Set-Cookie: PSTM=1467261660; expires=7 .1-Dec-37 23:55:55 GMT; max-age=214748 
3647; path=/; domain=.baidu.com 
Set-Cookie: BDSVRTM=0; path=/ 
Set-Cookie: BD HOME=0; path=/ 
Set-Cookie: H PS PSSID=1461 205° ' 20388 20417 17001 15297 12370; path=/; d 
omain=.baidu.com = 
P3P: CP=" OTI DSP COR IVA OU” i! " 
Cache-Control: private 
Cxy all: baidu+ffe990241- > 3d7816cf3df7f8 


获取 的 网 页 内 容 已 存 入 当前 目录 的 baidu.txt 中 ， 请 自行 查看 


kingêdebian:~/code/crawler$ 


4-1 run testUrllib2.py 


从 baidu.txt 的 结果 可 以 看 出 百度 首页 的 页 面 虽 然 很 简洁 ， 但 内 容 还 是 很 丰富 的 。 最 简单 
的 urllib2 用 法 就 是 这 样 了 。 至 于 那些 跟 身 份 验证 有 关 的 参数 ， 如 有 需要 请 目 行 参考 官方 文档 
或 google。 


4.1.2 ”urllib2 使 用 代理 访问 网 页 


在 使 用 网 络 朴 虫 时 ， 有 的 网 站 拒绝 了 一 些 IP 的 直接 访问 。 这 时 就 不 得 不 利用 代理 了 。 
urllib2 添加 代理 的 方式 不 止 一 种 。 这 里 选择 最 简单 也 是 最 直接 的 一 种 为 例 ， 至 于 免费 的 代 
理 ， 网 络 上 很 多 ， 可 自行 搜索 一 下 ， 选 择 一 个 确定 可 用 的 Proxy， 这 里 笔者 选择 的 是 从 
www. youdaili.net 中 获取 的 代理 36.7.172.18:82@HTTP. 


【示例 4-2】 编 写 testUrllib2WithProxy.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


testUrllib2 WithProxy.py 的 代码 如 下 : 


#48 Python Wk A 


Python WERA | 


输入 :wq， 保 存 testUrllib2WithProxy.py. testUrllib2WithProxy.py 将 使 用 代理 来 访问 百度 


#4 Python ER HARR 


的 首页 ， 并 设 定 了 一 个 特征 词 。 如 果 能 在 返回 的 结果 中 取得 这 个 特征 词 就 说 明 该 proxy 是 可 
用 的 。 执 行 命令 : 


得 到 的 结果 如 图 4-2 所 示 。 


king@debian:~/code/crawler$ python testUrllib2WithProxy.py http://36.7.172.18:82 a 
输入 的 http 代 理 服务 器 符合 标准 
己 取 得 特征 词 ， 该 代理 可 用 


king@debian:~/code/crawlers [| 


4-2 run testUrllib2WithProxy.py 


至 此 ，urllib2 使 用 代理 打开 网 页 测试 完毕 。 这 个 程序 采用 的 是 函数 与 类 混合 的 形式 。 这 
个 程序 无 须 修改 即 可 作为 模块 导入 到 其 他 程序 中 用 于 测试 Proxy 是 否 可 用 。 


© — 
AN uib 是 Python op HAE EH HAAR. ARS E = Ir Rm A Se RARR 
能 而 开发 出 来 的 。 这 是 个 必须 掌握 的 模块 。 


4.1.3 urllib2 修改 header 


在 使 用 网 络 爬 虫 时 ， 有 一 些 站 点 不 喜欢 被 程序 〈 非 人 为 访问 ) 访问 ， 会 检查 连接 者 的 
“GME” o AFA F urllib2 把 自己 的 版 本 号 Python-urllib/x.y (x 和 y 是 Python 主 版 本 和 
次 版 本 号 ， 例 如 Python-urllib/2.7〉 作 为 “身份 证 号 码 ” 来 通过 检查 。 这 个 “身份 证 号 码 ” 可 
能 会 让 站 点 迷惑 ， 或 者 干脆 不 工作 。 这 时 可 以 让 Python 程序 冒充 浏览 器 访问 网 站 。 网 站 是 通 
过 浏览 器 发 送 过 来 的 User-Agent 的 值 来 确认 浏览 器 身份 的 。 用 urllib2 创建 一 个 请 求 对 象 ， 并 
给 它 一 个 包含 头 数据 的 字典 ， 修 改 User-Agent 欺骗 网 站 。 一 般 来 说 ， 把 User-Agent 修改 成 
Internet Explorer 是 最 安全 的 ， 改 成 其 他 的 也 行 。 
先 将 准备 工作 做 好 ， 将 所 有 常见 的 User-Agent 全 部 放 到 一 个 userAgents.py 文件 中 ， 以 字 
典 的 形式 保存 起 来 ， 方 便 以 后 当成 模块 导入 使 用 。userAgents.py 的 代码 如 下 : 
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Python WEE Khk 


#4 Python ER HHRH 


userAgents.py 里 只 包含 了 最 常用 的 User-Agent， 如 有 特殊 需要 可 以 继续 添加 。 但 在 使 用 
网 络 息 虫 时 最 好 用 最 常见 的 那些 User-Agent， 以 免 被 网 站 拒绝 访问 。 


【示例 4-3】 准 备 工作 完毕 后 ， 开 始 编 写 testUrllib2ModifyHeaderpy。 打 开 Putty 连接 到 
Linux， 执 行 命令 : 


testUrllib2ModifyHeader.py 的 代码 如 下 : 


Python 网 络 息 虫 实战 


输入 :wq， 保 存 testUrllib2ModifyHeaderpy。testUrllib2ModifyHeaderpy 使 用 了 2 个 不 同 
的 浏览 器 header 访问 有 道 翻译 的 主页 ， 并 将 返回 的 结果 保存 起 来 。 执 行 命令 : 


| python testUrllib2ModifyHeader.py —— 
得 到 了 1.html 和 2.html， 打 开 这 两 个 网 页 比较 一 下 ， 得 到 的 结果 如 图 4-3 所 示 。 
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- > Ç D file///F:/syxr| © O Q æ œŒ D file:///F:/sync/codse & O © œ 
ni 应 用 O 从 Firefox 导 入 图 百度 。G 谷歌 搜索 Wo 应 用 O 从 Firefox 导入 图 BS G 谷歌 搜索 Y sias 
User-Agent: NOKIA5700/ UCWEB7.0.2.37/28/999 


有 道 youdao 词典 Me Fic BS 网 页 


) 自动 检测 


ee 


自动 检测 语言 


有 道 专业 翻译 - 24 小 时 精准 人 工 翻 译 


IBS | REEN | 切换 到 PC 版 


+ 


4-3 run testUrllib2ModifyHeader.py 


urllib2 添加 Header HAW HM iAsE HR. le] Pa ear AN A ASIANA IAA. A 
以 在 使 用 网 络 爬 曰 时 ， 如 果 条 件 允 许 尽 可 能 添加 一 个 固定 的 User-Agent. 


4.2 Python 标准 库 一 一 logging 模块 


Logging 模块 ， 顾 名 思 义 就 是 针对 日 志 的 。 到 目前 为 止 ， 所 有 的 程序 标准 输出 “〈 输 出 到 
屏幕 ) 都 是 使 用 的 print 函数 。Logging 模块 可 以 蔡 代 print 函数 的 功能 ， 并 能 将 标准 输出 输入 
到 日 志文 件 保存 起 来 ， 而 且 利用 logging 模块 可 以 部 分 替代 debug 的 功能 ， 给 程序 排 错 。 


4.2.1 IA logging 模块 

首先 要 说 到 的 是 logging 模块 的 几 个 级 别 。 默 认 情 况 下 logging 模块 有 6 个 级 别 。 它 们 分 
别 是 NOTSET 值 为 0、DEBUG 值 为 10、INFO 值 为 20、WARNING 值 为 30、ERROR 值 为 
40、CRITICAL 值 为 50 (也 可 以 自 定 义 级 别 ) 。 这 些 级 别 的 用 处 是 ， 先 将 自己 的 日 志 定 一 个 
级 别 ，logging 模块 发 出 的 信息 级 别 高 于 定义 的 级 别 ， 将 在 标准 输出 屏幕， 显示 出 来 。 发 出 
的 信息 级 别 低 于 定义 的 级 别 则 略 过 。 如 果 未 定义 级 别 ， 默 认定 义 的 级 别 是 WARNING. 

先 测 试 一 下 。 在 Windows 中 打开 IDLE， 执 行 命令 : 


import logging 
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执行 结果 如 图 4-4 所 示 。 


Python 2.7.11 {wv2.7.11:6dlib6a68f775, Dec 5 2015, 20:40:30) [MSC v.1500 64 bit ( < 
4ND64)] on win32 

Type “copyright”, “credits” or “license()" for more information. 

>>> import logging 

>>> logging. NOTSET 

0 


>>> logging. DEBUG 
>>> logging. INFO 

5 logging. WARNING 
> logging. ERROR 
a logging. CRITICAL 


>>> logging. debug( debug message’ ) 
>>> pa o ae message ) 
>>> logging. warning ( warning message’ ) 
WARNING: root:warning message 

>>> logging. error(’ error message’ ) 
ERROR: root:error message 

>>> logging. critical (’ critical message’ ) 
ma ial message 


4-4 logging 级 别 
使 用 logging 最 简单 的 方法 就 是 logging.basicConfig。logging.basicConfig 的 应 用 方法 为 : 


这 个 函数 可 用 的 参数 有 : 


@ filename: 用 指定 的 文件 名 创建 FiledHandler (后 边 会 具体 讲解 handler 的 概念 ) ， 
这 样 日 志 会 被 存储 在 指定 的 文件 中 。 

© filemode: 文件 打开 方式 ， 在 指定 了 filename 时 使 用 这 个 参数 ， 默 认 值 为 “a” 还 可 指 

ZAW. 

format: 指定 handler 使 用 的 日 志 显 示 格 式 。 

datefmt: 指定 日 期 时 间 格 式 。 

level: 设置 rootlogger ( 后 边 会 讲解 具体 概念 ) 的 日 志 级 别 。 

stream: 用 指定 的 stream 创建 StreamHandler。 可 以 指定 输出 到 sys.stderr,sys.stdout 
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或 者 文件 ， 默 认为 sys.stderr。 若 同时 列 出 了 filename 和 stream 两 个 参数 ， 则 stream 
参数 会 被 忽略 。 


参数 中 的 format 参数 可 能 用 到 的 格式 化 串 : 


© %(name)s: Logger 的 名 字 。 

© %(levelno)s: 数字 形式 的 日 志 级 别 。 

© %(levelname)s: 文本 形式 的 日 志 级 别 。 

© %(pathname)s: 调用 日 志 输 出 函数 的 模块 的 完整 路 径 名 ， 可 能 没有 。 

© %(filename)s: 调用 日 志 输 出 函数 的 模块 的 文件 名 。 

@ %(module)s: 调用 日 志 输 出 函数 的 模块 名 。 

© %(funcName)s: 调用 日 志和 输出 函数 的 函数 名 。 

© %(lineno)d: 调用 日 志 输 出 函数 的 语句 所 在 的 代码 行 。 

© %(created)f: 当前 时 间 ， 用 UNIX 标准 的 表示 时 间 的 浮 点 数 表 示 。 

© %(relativeCreated)d: 输出 日 志 信 息 时 ， 自 Logger 创建 以 来 的 毫秒 数 。 

© %(asctime)s: 字符 串 形式 的 当前 时 间 。 默 认 格式 是 “2003-07-08 16:49:45,896", iz 
号 后 面 的 是 毫秒 ， 

© %(thread)d: 线程 ID。 可 能 没有 。 

@ %(threadName)s: 线程 名 。 可 能 没有 。 

© %(process)d: 进程 ID。 可 能 没有 。 

© %(message)s: 用 户 输 出 的 消息 。 


还 有 一 些 参数 应 用 与 进程 线程 等 高 级 应 用 ， 可 自行 参考 官方 文档 或 Google。 
参数 中 的 datefmt 是 日 期 的 格式 化 ， 最 常用 的 几 个 格式 化 是 : 


© WY: 年 份 的 长 格式 ， 如 1999, 
%y: 年 份 的 短 格 式 ， 如 99。 
%m: 月 份 ，01~12。 

%d: 日 期 01~31。 

%H: 小 时 ，0~23。 

%w: 星期 ，0~6， 星 期 天 是 0。 
%M: A447, 00~59. 

%S: #7, 00~59. 


AAR INS Bok AHERN A I, ON SOTA. iAH ATES ATM 
档 或 Google. 

【示例 4-4】 下 面 利 用 logging.basicConfig 写 个 最 基本 的 日 志 模 块 应 用 程序 中 ， 山 写 
testLogging.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi testLogging.py 
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testLogging.py 的 代码 如 下 : 


输入 :wq， 保 存 testLogging.py. testlogging.py 用 于 测试 logging 模块 。 该 脚本 使 用 不 同 的 


级 别 辣 logger 发 送 了 几 条 信息 。 执 行 命令 : 
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得 到 的 结果 如 图 4-5 所 示 。 


king@debian:~/code/crawler$ python testLogging.py 
king@debian:~/code/crawler$ cat testLog.txt 

2016-06-30 14:26:31,172 INFO root info message 
2016-06-30 14:26:31,173 WARNING root warning message 


2016-06-30 14:26:31,173 ERROR root error message 
2016-06-30 14:26:31,173 CRITICAL root critical message 
king@debian:~/code/crawlers || 


4-5 run testLogging.py 


#48 Python 爬虫 常用 模块 


默认 的 logging 级 别 是 logging. INFO 程序 第 12 行 ) 。 而 logging.debug〈 程 序 第 17 行 ) 
的 级 别 低 于 logging.INFO， 所 以 没有 显示 。 

在 程序 中 的 关键 位 置 插入 log 人 信息， 执行 python 程序 时 出 现 什么 问题 ， 可 以 直接 查找 日 
志文 件 ， 无 须 再 一 步 步 地 debug 调试 。 


4.2.2 目 定 义 模块 myLog 

使 用 logging 模块 很 方便 ， 但 在 编写 过 程 中 添加 一 大 扒 的 代码 就 不 是 那么 愉快 的 事情 
了 。 好 在 Python 有 强大 的 import， 完 全 可 以 先 配 置 好 一 个 myLog.py， 以 后 需要 使 用 时 直接 
导入 到 程序 中 即 可 。 


【示例 4-5】 编 写 myLog.py。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


myLog.py 的 代码 如 下 : 


Python WERS j 


输入 :wq， 保 存 myLog.py。myLog.py 可 以 当成 一 个 脚本 执行 ， 也 可 以 当成 一 个 模块 导入 
到 其 他 的 脚本 中 执行 。 在 这 里 是 作为 脚本 使 用 的 ， 它 的 作用 是 将 所 有 的 log 信息 显示 到 屏幕 
上 ， 错 误 信息 存 入 到 log 文档 中 去 。 执 行 命令 : 


得 到 的 结果 如 图 4-6 所 示 。 


king@debian:~/code/crawler$ python myLog.py 

2016-06-30 14:35:55,662 DEBUG king I'm debug 
2016-06-30 14:35:55,663 INFO king I'm info 
2016-06-30 14:35:55,664 WARNING king I'm warn 
2016-06-30 14:35:55,665 ERROR king I'm error 
2016-06-30 14:35:55,666 CRITICAL king I'm critical 
kingGdebian:~/code/crawler$ cat myLog.log 


2016-06-30 14:35:55,665 ERROR king I'm error 
2016-06-30 14:35:55,666 CRITICAL king I'm critical 
king@debian:~/code/crawler$ || 


4-6 run myLog.py 
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【示例 4-6】 下 面 再 写 一 个 testMyLog.py， 在 程序 中 导入 上 图 中 的 myLog.py 作为 模块 使 
用 。 编 写 testMyLog.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


testMyLog.py 的 代码 如 下 : 


输入 :wq， 保 存 testMyLog.py。testmyLog.py 调用 了 myLog.py， 将 它 作 为 模块 使 用 。 执 


行 命令 : 


得 到 的 结果 如 图 4-7 所 示 。 


king@debian:~/code/crawler$ python testMyLog.py 

2016-06-30 14:58:09,055 DEBUG king I am debug message 
2016-06-30 14:58:09,056 INFO king I am info message 
2016-06-30 14:58:09,057 WARNING king I am warn message 
2016-06-30 14:58:09,058 ERROR king I am error message 
2016-06-30 14:58:09,059 CRITICAL king I am critical message 
king@debian:~/code/crawler$ cat testMyLog.log 


2016-06-30 14:58:09,058 ERROR king I am error message 
2016-06-30 14:58:09,059 CRITICAL king I am critical message 
king@debian:~/code/crawler$ ||] 


47 导入 自 定义 模块 


在 编程 时 ， 有 时 为 了 查看 程序 的 进度 和 参数 的 变化 ， 在 程序 中 间 插 入 了 大 量 的 print。 检 
查 完 毕 后 又 要 逐个 删除 ， 费 时 费力 。 使 用 log 后 就 简单 多 了 ， 直 接 保 存 为 日 志文 件 即 可 。 
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在 编写 网 络 息 虫 时 ， 还 有 一 些 模块 是 必 不 可 少 的 。 这 些 模块 使 用 频率 不 启 ， 如 末 不 想 深 
完 ， 稍 作 了 解 即 可 。 


4.3.1 re 模块 (正则 表达 式 操作 ) 

re 模块 是 文件 处 理 中 必 不 可 少 的 模块 。 它 主要 应 用 于 字符 串 的 查找 、 定 位 等 等 。 在 使 用 
PYZAM, BDAY AME REAR, re 模块 配合 urllib2 模块 也 可 以 完成 简单 的 仆 虫 功能 。 先 来 
看 看 所 谓 的 正则 表达 式 ， 以 下 是 Python 支持 的 正则 表达 式 元 字符 和 语法 。 


1 . 字符 


© : 匹配 任意 除 换行 符 \n 外 的 字符 ，abc 匹配 abc。 
© \ 转 义 字符 ,使 后 一 个 字符 改变 原来 的 意思 ，a\.bce 匹配 abe. 
@ |[...]: 字符 集 (字符 类 ) 。 对 应 字符 集中 的 任意 字符 ， 第 一 个 字符 是 ^ 则 取 反 、。 
a[bc]d 匹配 abd,acd. 
\d: 数字 [0-9]。 
\D: FF [^d]. 
空白 字符 [空格 \t\rn\f\v]。 
\S: 非 空 白字 符 [As]。 
\w: 单词 字符 [a-zA-Z0-9 ]。 
\W: 非 单 词 字符 [A\w]。 
. 数量 词 
*; 匹配 前 一 个 字符 0 或 无 限 次 。al*b 匹配 ab、alb、allb…… 
+: ”匹配 前 一 个 字符 1 或 无 限 次 。al*b 匹配 alb、allb*…… 
2: ”匹配 前 一 个 字符 0 或 1 次 。al*b 匹配 ab、alb.。 
{mi}: 匹配 前 一 个 字符 m 次 。al{3}b 匹配 alllb。 
{m,n}: 匹配 前 一 个 字符 m 至 n 次 。al{2,3}b 匹配 allb、alllb. 


. 边界 匹配 
^ 匹配 字符 串 开 头 ， 如 ^abc 匹配 以 abe FAM FHF. 
$: ”匹配 字符 串 结尾 ， 如 xyz$ 匹 配 以 xyz 结尾 的 字符 串 。 
\A: 仅 匹 配 字符 串 开 头 ， 如 \Aabc。 
Z: 仅 匹 配 字符 串 结尾 ， 如 Xyz. 


eeeeg@e eg@ hr 
a 


egg eg@ & 


e © ooo > 
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Python 的 re 模块 提供 了 两 种 不 同 的 原始 操作 : match 和 search. match 是 从 字符 串 的 起 
点 开始 做 匹配 ， 而 search Cperl BRU) 是 对 字符 串 做 任意 匹配 。 最 常用 的 几 个 re 模块 方法 如 
下 : 


re.compile(pattern, flags=0): 将 字符 串 形式 的 正则 表达 式 编 译 为 Pattern 对 象 。 
re.search(string[, pos[, endpos]]): 从 string 的 任意 位 置 开始 匹配 。 

re.match(string[, pos[, endpos]]): 从 string 的 开头 开始 匹配 。 

re.findall(string[, pos[, endpos]]): 从 string 任意 位 置 开始 匹配 ， 返 回 一 个 列表 。 
re.finditer(string[, pos[, endpos]]): 从 string 任意 位 置 开始 匹配 ， 返 回 一 个 迭代 器 。 
般 匹 配 findall 就 可 以 了 ， 大 数量 的 匹配 还 是 使 用 finditer 比较 好 。 


简单 地 测试 一 下 ,打开 IDLE 执行 命令 : 


执行 结果 如 图 4-8 所 示 。 


am python modules test for re modules’ 
Hi re. search ( am’, 
re. SRE_Match object at 0x0000000002958100> 
>>>, re. search(’ am’, s). group () 


>>> re.match(’ am’, s) 

>>> re. match(’ I an’, s) 

<_sre. SRE_Match object at 0x0000000002958100> 
>>> re. match(’I am ,s). group() 


"I am 
>>> re, findall ( modules’ 38) 


5) 
<callable-iterator object. at 0x0000000002951E10> 
>>> for sre in re.finditer( modules’, s): 

print (sre. group ()) 


4-8 re 匹配 字符 串 
现在 用 re 模块 和 urllib2 模块 来 做 一 个 简单 的 网 络 朴 虫 ， 例 如 笔者 想 看 看 最 近 的 电影 院 播 
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放 的 今日 电影 。 先 找 找 最 近 的 影院 ， 就 以 金 逸 影 城 为 例 。 找 到 影院 页 面 
http://www.jycinema.com/browsing/Cinemas/Details/1029, 46444 urllib2 模块 抓 取 整个 网 页 ， 
再 使 用 re 模块 获取 影视 信息 。 


【示例 4-7】 编 写 simpleCrawlerNowMoive.py，Putty 连接 到 Linux， 执 行 命令 : 


simpleCrawler.py 的 代码 如 下 : 


输入 :wq， 保 存 simpleCrawlerNowMoive.py. simpleCrawlernowMoive.py 使 用 urllib2 模块 
获取 URL 的 返回 信息 ， 然 后 使 用 re 模块 从 结果 中 过 滤 得 到 当日 电影 的 列表 ， 最 后 显示 到 屏 
幕 上 。 执 行 命令 : 


#48 Python Wk AH 


得 到 的 结果 如 图 4-9 所 示 。 


king@debian:~/code/crawler$ [| 


4-9 run simpleCrawlerNowMoive.py 


FA OK AR HE PI 2 ME, H? PER OR IR hE I ME JR EM A A AE AIR fa 
PL THAD. MEERA AER IN, WERE AY RAG. FAA AI. ME 
IAA KAN, FERRI TTS AB RT S, ISIN ee SA BME AER T o 


4.3.2 sys 模块 〈 系 统 参数 获取 ) 


sys 模块 ， 顾 名 思 义 就 是 跟 系 统 相关 的 模块 ， 这 个 模块 的 函数 方法 不 多 。 最 常用 的 就 只 
有 两 个 。sys.argv 和 sys.exit。sys.argv 返回 一 个 列表 ， 包 含 了 所 有 的 命令 行 参 数 ; sys.exit 则 
是 退出 程序 。 再 就 是 可 以 返回 当前 系统 平台 。 这 个 模块 比较 简单 ， 稍 作 了 解 即 可 。 


【示例 4-8] 475 testSys.py， 打 开 Putty 连接 到 Linux， 执 行 命 令 : 


testSys.py 的 代码 如 下 : 
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输入 :wq， 保 存 testSys.py. testSys.py 顾名思义 用 于 测试 sys 模块 。 该 脚本 将 获取 系统 平 
A. Python 脚本 参数 的 个 数 、 参 数 的 值 等 信息 。 执 行 命令 : 


得 到 的 结果 如 图 4-10 所 示 。 


king@debian:~/code/crawler$ python testSys.py 1 2345 
sys 模 块 最 常用 的 功能 就 是 获取 程序 的 参数 
开始 获取 参数 的 个 数 

当前 参 6 

这 些 参 数 分 别 是 ['testSys.py', "4° D8 1310 4? cy 
其 次 就 是 获取 当前 的 系统 平台 

sys .platform 返 回 值 对 应 的 平台 z 


Platform 


riscos 
atheos 


kingêdebian:~/code/crawler$ || 


4-10 run testSys.py 


sys 模块 用 处 不 多 ， 但 也 需要 熟悉 。 顾 名 思 义 ， 它 的 主要 作用 就 是 返回 系统 信息 。 


4.3.3 time 模块 〈 获 取 时 间 信 息 ) 


Python 中 的 time 模块 是 跟 时 间 相 关 的 模块 。 这 个 模块 用 得 最 多 的 地 方 可 能 驶 是 计时 天 
To KERNA HISLAR. 
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time.time(): 6 4 ay a4 By Ta] AR. 

time.localtime([secs]): 默认 将 当前 时 间 堆 转换 成 当前 时 区 的 struct time., 
time.sleep(secs): 计时 器 。 

Time.strftime(format[, t]): 把 一 个 struct_time 转换 成 格式 化 的 时 间 字 符 串 。 这 个 函数 
支持 的 格式 符号 如 表 4-1 所 示 . 


表 4-1 时 间 字 符 串 支持 的 格式 符号 


在 使 用 strptime() 函 数 时 ，%p MA 配合 使 用 才 有 效 。 
AS 中 的 秒 是 0~61， 国 年 中 的 秒 占 两 秒 。 
在 使 用 strtime() 函 数 时 ， 只 有 当年 中 的 周 数 和 天 数 被 确定 时 ，%U MAW 才 被 计算 。 
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简单 地 测试 一 下 ， 在 Windows 中 打开 IDLE， 执 行 命 令 : 


执行 结果 如 图 4-11 所 示 。 


Python 2.7.11 (v2. 7.11:6dlb6a68f775, Dec 5 2015, 20:40:30) [MSC v.1500 64 bit ( a 
AMD64)] on win32 
Type “copyright” ， “credits” or "license()” for more information. 


>>> time. localtime () 
time. struct_time (tm_year=2016, tm_mon=6, tm_mday=30, tm_hour=18, tm_min=41, tm_s 
ec=57, tm. _wday=3, tm_ Ryde 182, tn_ isdst= 0) 
>>> for i in xrange(5 
time. sleep (1) 
print i 


0 
1 
2 
3 
4 


>>> time. strftime(’ %Y-%m-%d XX ,time. localtime ()) 
se 18:42:44’ 


4-11 show time module 


【示例 4-9】 做 个 简单 的 程序 ， 实 验 一 下 time 模块 。 编 写 testTime.py， 打 开 Putty 连接 到 
Linux， 执 行 命 令 : 


testTime.py 的 代码 如 下 : 
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输入 :wq， 保 存 testTime.py。testTime.py 测试 了 time 模块 的 定时 器 功能 ， 并 显示 当前 时 
间 。 执行 命令 : 
Python testTine' py 


得 到 的 结果 如 图 4-12 所 示 。 
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kingêdebian:~/code/crawler$ python testTime.py 

|2016-06-30 18:47:36,455 INFO king et time () HA 
| 当前 时 间 玲 为 : time.time () = 1467283656.4569 

| 这 时 返回 的 是 一 个 浮 点 型 的 数值 ， 它 是 从 1970 纪 元 后 经 过 的 浮 点 秒 数 


2016-06-30 18:47:36,458 INFO king 开始 测试 time .1localtime () 函数 
当前 本 地 时 间 为 : time.localtime() = time.struct time (tm year=2016, tm mon=6, tm m 
day=30, tm_hour=18, tm min=47, tm sec=36, tm wday=3, tm yday=182, tm_isdst=0) 


这 里 返回 的 是 一 个 struct time 结 构 的 元 组 


|2016-06-30 18:47:36,460 INFO king 开始 测试 time .sleep() 函数 
这 是 个 计时 器 : time.sleep (5) 
闭 上 眼睛 数 上 s 秒 就 可 以 了 


2016-06-30 18:47:41,463 INFO j 开始 测试 time .strftime () A% 
| 过 个 函数 返回 的 是 一 个 格式 化 的 时 间 


time.strfitime ("tY-tm-td %X",time.localtime()) = 2016-06-30 18:47:41 


king@debian:~/code/crawlers || 


图 4-12 run testTime.py 


time MPA AIRS eA, Fe AAR ETTIN AS, EE HIN TE AK To 


LL Fag 


如 果 只 想 大 致 了 解 Python WAER, AR TAER PLANS T o BENER P ny HEE 
m Ze RRR, (OCD, KE A seis RE KR TA. SEH DEE eR BE 
用 ， 这 样 就 简单 多 了 。Python 2 MPRDA 300 个 。 熟 悉 所 有 的 模块 ， 既 没 必要 ， 
也 不 可 能 。 用 到 哪个 模块 就 熟悉 哪个 模块 ， 束 可 以 了 。 
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Px 2% ME E A dee AE A a ee MA A CT a ZEA AE de F ID A 4K EH 
urllib2 请 求 网 页 得 到 结果 ， 然 后 使 用 re KARAR. BURNA IE RES. TE 
BABAK S Ao WASA SMA UEZR 

Python PIMC HESS A>, EANA Sie fal FELINE Scrapy 了 。 首 先 它 的 资料 比较 全 ， 
网 上 的 指南 、 教 程 都 比较 多 。 其 次 它 够 简单 ， 只 要 按 需 填空 即 可 ， 简 简单 单 地 就 能 获取 到 所 
需 的 内 容 ， 非 党 方便 。 


9. L 安装 Scrapy 


Scrapy 的 官网 是 http://scrapy.org/， 目 前 最 新 版 本 的 Scrapy 是 Scrapy 1.1. Scrapy 的 安装 
方式 很 多 。 官 网 上 就 给 出 了 4 种 安装 方法 ，PyPI、Conda、APT 、Source 安装 。 这 里 笔者 只 
演示 最 常用 的 两 种 安装 方法 。 


5.1.1 Windows 下 安装 Scrapy 环境 


Windows 下 安装 Scrapy 除了 不 能 使 用 APT 安装 外 ， 其 他 的 三 种 方法 都 是 可 以 的 。 这 里 
笔者 选择 了 最 简单 的 PyPI 安装 ， 也 就 是 pip 安装 。pip 安装 Scrapy 的 前 提 条 件 是 已 经 安装 好 
了 Python， 并 配置 好 了 pip 源 。 如 果 这 些 条 件 已 经 具备 ， 安 装 Scrapy 只 需要 打开 cmd， 执 行 
一 条 命令 而 已 。 打 开 cmd 并 执行 命令 : 


执行 结果 如 图 5-1 所 示 。 


Python 网 络 息 虫 实战 


icrosoft Windows [ hie ~ 6.1.7601] 


RAY AAS <c> 26869 Microsoft Corporation, 保留 加 所 有 权利 |。 


=Weers\king>pip install scrapy 
Downloadingft p -1.U-py2.p F JAKE 
5 A6kB 172kB/s eta @: 08-62 
116KB 172kB/s eta 6:66:62 
114kB 172kB/s eta A:00:A 
i118kB i172kB/s eta 6:66:6 
122kB 2.6MB/s eta A:ØA: 
126kB 2.6MB/s eta 6:66: 
131kB 172kB/s eta 6:48 
135kB i55kB/s eta 6:66 
139kB i155kB/s eta 6:66 
| 143kB 155kB/s eta 6:6 
147kB 155kB/s eta 6:6 
1 151kB 155kB/s eta U: 
1 155kB 155kB/s eta 日 : 
: 159kB i155kB/s eta OB 
i 163kB 155KB/s eta Ø 
167kKB 15S5kB/s eta 
172kB 3999kB/s eta 
i?6kKB 2.4MB/s eta 
i 186kB 2.4MB/s eta 
! 184kB 2.6MB/s eta 
i 188kB 2.6MB/s et 
! 192kB 2.4MB/s et 
i 136kB 1?7kB/s e ~ 


5-1 使 用 pip 安装 scrapy 


Windows 下 的 Scrapy 和 Linux 下 的 Scrapy 是 完全 一 样 的 。 但 笔者 一 般 都 会 在 Linux 下 使 
用 Scrapy。Linux 的 优点 是 有 很 多 辅助 工具 可 供 使 用 ， 而 Windows WRAAE R FARE 
IDE 可 供 选 择 了 。 而 在 这 里 使 用 Scrapy HERI, IDE 却 是 最 无 关 紧 要 的 参考 选项 了 。 


5.1.2 Linux FÆ% Scrapy 


Linux 下 安装 Scrapy 官网 上 推荐 的 4 种 方法 都 可 以 。 从 上 一 小 节 看 ，Windows 下 使 用 了 
pip 安装 scrapy 已 经 很 和 侧 单 了 ，Linux 下 使 用 更 简单 的 方法 APT 来 安装 。Scrapy 官方 推荐 的 
APT 安装 还 需要 在 Linux 中 添加 apt Bi. Him Debian 庞大 的 软件 库 ， 这 一 步 完 全 可 以 省 
加 直接 使 用 Debian Linux 的 apt-get 安装 Scrapy， 人 简单 方便 而 且 将 Scrapy 列 入 了 = 包 管 
器 中 。 以 后 升级 、 删 除 都 很 方便 。 安 装 Scrapy 也 是 只 需要 一 条 命令 而 已 ， 执 行 命令 


apt-get install python-scrapy 


执行 结果 如 图 5-2 所 示 。 


king@debians: ~ 


文件 (F) 编辑 ([E】 SAV) MESS) ”终端 (T) 帮助 (H) 


root @debian8: /home/ king# apt-get install python- scrapy 


正在 读 取 状态 TT 3 

和 将 会 安装 下 列 显 HEP 件 包 : 
ipython javascript-common Libjs- jquery LibmysqLcLient18 mysql- common python- boto 
python- characteristic python- crypto python-cssselect python- decorator python- django 
python- dj ango- common python- idna python-mysqldb python- pam python- pyasn1- modules 

-queuelib python- serial python- service- identity python- simplegeneric 
hon- sqLparse python- twisted- bin python- twisted-conch python- twisted- core 
-twlutad- nall python- twisted- names python- twisted-web python- tz python- w3lib 
ope. interface 
9 软件 包 : 

ee doc ipython-notebook ipython-qtconsole python- matplotlib python-zmq apache? 
Lighttpd httpd python-crypto-dbg python-crypto- doc python-psycopaq2 python- flup 
python- sqlite python- memcache python- bcrypt Python- yaml geoip- database- extra 
geoip- database- contrib gettext python- django- doc bpython libgdal1 
python- egenix-mxdatetime mysql- server-5,1 mysql-server python- mysql db- dbg 
python- wxgtk3.0 python-wxgtk python- sdqLparse- doc python- twisted- bin- dbg python- tk 
python- glade2 python- qt3 

推荐 安装 的 软件 包 : 
python- guppy 

下 列 【 新 ] 软件 包 将 被 安装 : 
ipython javascript- common Libjs- jquery Libmysqlclient1l8 mysql- common python- boto 
python- characteristic python-crypte python-cssselect python- decorator python- django 
python- dj ango- common python- idna python- mysqldb python- pam python- pyasnl- modules 
python- queuelibf python- sc repy pitnom serial python- service- identity 

ython-simplegeneric pyt S ython- twisted-bin python- twisted- conch 


5-2 ”使 用 apt-get 安装 scrapy 
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因为 Debian 安装 软件 选择 的 都 是 最 成 熟 稳定 的 版 本 ， 而 不 是 最 新 的 版 本 。 所 以 这 里 安装 
的 Scrapy 并 不 是 最 新 的 1.1 版 ， 如 图 5-3 所 示 。 


scrapy <command> [options] [args] 


Available commands: 
bench Run quick benchmark test 
fetch Fetch a URL using the Scrapy downloader 
runspider Run a self-contained spider (without creating a project) 


settings Get settings values 

shell Interactive scraping console 
startproject Create new project 

version Print Scrapy version 

view Open URL in browser, as seen by Scrapy 


[ more ] More commands available when run from project directory 


Use “scrapy <command> -hn to see more info about a command 
king@debian:~$ 


5-3 Scrapy 版 本 
这 两 个 版 本 并 没有 什么 本 质 的 不 同 ， 我 们 可 以 放心 使 用 。 


5.1.3 vim 编辑 器 


本 章 的 Scrapy 项 目 主要 是 在 Linux 下 运行 。 在 Linux 下 最 强大 的 IDE 是 Eclipse， 但 最 方 
便 的 还 是 vim (vim 是 vi 的 强化 版 ， 而 vi 是 所 有 Linux 发 行 版 本 都 默认 安装 的 ) 。 

vim 是 一 个 文本 编辑 器 ， 在 上 手 时 可 能 舟 有 点 诬 烦 。 它 有 一 些 快捷 键 和 命令 是 必须 要 记 
住 的 ， 可 以 边 使 用 边 记忆 。 等 熟悉 了 vim 的 操作 方法 ， 就 会 发 现 文本 编辑 是 如 此 简单 。 对 不 
同 的 编程 语言 配合 不 同 的 插件 ， 可 以 将 vim 配置 成 为 一 个 专属 的 IDE. 

vim 安装 非常 简单 ， 使 用 Putty 登录 Linux 后 ， 以 root 用 户 执行 命令 : 


vim 的 配置 文件 是 /etc/vim/vimre F#il/home/‘user’/.vim/vimre (对 于 用 户 king 来 说 就 是 
/home/king/.vim/vimrc )。 前 者 是 系统 配置 文件 ， 后 者 是 用 户 的 配置 文件 。 两 者 相 冲 突 ， 则 以 
后 者 为 主 。 

vim 的 配置 项 很 多 这 里 不 一 一 列举 ， 为 了 编写 Python 程序 方便 ， 这 里 只 修改 最 简单 的 设 
置 。 笔 者 的 vimre 文件 如 下 : 


第 1 行 的 设置 是 将 tabstop 设置 成 4 个 空格 ， 第 2 行 是 显示 行 号 ， 第 3 行 不 将 tabstop 转 
换 成 空格 。 

如 果 经 常 在 Linux 写 Python 程序 ， 可 以 到 github 上 下 载 vim 变 身 Python IDE 的 配置 文 
件 。 仔 细 调 试 一 下 ，vim IDE 不 比 Windows 下 的 Python IDE #:. 
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5 .2 Scrapy 选择 器 XPath 和 CSS 


在 使 用 Scrapy MEARE AI m EEG TR Scrapy 的 选择 器 。 在 前 面 章节 曾经 提 过 ， 网 络 息 
虫 原 理 就 是 获取 网 页 返回 ， 然 后 提取 所 需 的 内 容 。 获 取 网 页 返回 很 简单 ， 重 点 就 在 提取 内 容 
上 。 如 何 提取 ?使 用 Python 的 re 模块 ， 前 面 的 章节 中 已 经 党 试 过 了 。 简 单 网 页 用 re 模块 提 
取 可 以 将 就 ， 复 杂 一 点 的 提取 内 容 就 麻烦 了 。 不 是 说 完全 不 可 以 ， 但 是 有 简单 的 方法 又 何必 
去 自己 编写 新 方法 呢 。 

Scrapy 提取 数据 有 自己 的 一 套 机 制 。 它 们 被 称 作 选 择 器 (seletors) ， 通 过 特定 的 XPath 
或 者 CSS 表达 式 来 “选择 ”HTML 文件 中 的 某 个 部 分 。 

XPath 是 一 门 用 来 在 XML 文件 中 选择 节点 的 语言 ， 也 可 以 用 在 HTML Eo Css 是 一 门 
将 HTML 文档 样式 化 的 语言 。 选 择 器 由 它 定 义 ， 并 与 特定 的 HTML 元 素 的 样式 相关 联 。 

Scrapy 的 选择 器 构建 于 lxml 库 之 上 ， 这 意味 着 它们 在 速度 和 解析 准确 性 上 非常 相似 。 所 
以 看 你 喜欢 那 种 选择 器 就 使 用 那 种 吧 ， 它 们 从 效率 上 看 是 完全 没有 区 别 。 


5.2.1 XPath 选择 器 


XPath 是 一 门 在 XML 文档 中 查找 信息 的 语言 。XPath 可 用 来 在 XML 文档 中 对 元 素 和 
属性 进行 遍历 。XPath 含有 超过 100 个 内 建 的 函数。 这些 函数 用 于 字符 串 值 、 数 值 、 日 期 和 
时 间 比 较 、 节 点 和 QName 处 理 、 序 列 处 理 、 逻 辑 值 等 等 。 在 网 络 爬 虫 中 只 需要 利用 XPath 
“采集 ”数据 ， 如 果 想 深入 研究 可 参考 www.w3school.com.cn 中 的 XPath 教程 。 

在 XPath 中， 有 7 种 类 型 的 节点 : 元 素 、 属 性 、 文 本 、 命 名 空间 、 处 理 指令 、 注 释 以 及 
文档 节点 (或 称 为 根 节点 ) o XML 文档 是 被 作为 节点 树 来 对 竺 的 。 树 的 根 被 称 为 文档 节点 或 
者 根 节点 。 


【示例 5-1】 做 个 简单 的 XML 文件 ， 以 便 演 示 。 执 行 命 令 : 


在 这 里 创建 了 scrapy 的 工作 目录 scrapyProject， 并 在 该 目录 下 创建 了 选择 占 的 工作 目录 
seletors。 在 该 目录 下 创建 选择 喜 的 演示 文件 superHero.xml。superHero.xml 的 代码 如 下 : 


S58 Scrapy 爬虫 框架 


很 简单 的 一 个 XML CPE, FEDER PAT IR PTE, WIA 5-4 所 示 。 


This XML file does not appear to have any style information associated with it. The document tree is shown below. 


¥ <superhero> 

¥<class> 
<name lang=“en">Tony Stark</name> 
<alias>Iron Man</alias> 
<sex>male</sex> 
<birthday>1969</birthday> 
<age>dT</ age) 

</class> 

¥<class> 
<name lang=“en">Peter Benjamin Parker</name> 
<alias>Spider Man</alias> 
<sex>male</sex> 
<birthday>urknow</birthday> 
<age>umknown</age> 


<name lang="en">Steven Rogers</name> 
<alias>Captain America</alias> 
<sex>male</sex> 
<birthday>19200704</birthday> 
<age>96</ age> 
</class> 
</superhero> 


5-4 选择 器 演示 文件 superHero.xml 


后 面 的 选择 器 都 以 该 文件 为 示例 。 在 superHero.xml 中 ，<superhero> 是 文档 节点 ， 

<alias>Iron Man</alias> 是 元 率 节 点 ，lang="en" 是 属性 节点 。 

从 节点 的 关系 来 看 。 第 一 个 Class 节点 是 name, alias, sex, birthday, age 节点 的 父 节点 
(Parent) 。 反 过 来 说 ，name、alias、sex、birthday、age 节点 是 第 一 个 Class 节点 的 子 节点 
(Childer) > name, alias, sex, birthday, age 节点 之 间 互 为 同胞 节点 (sibling) 。 这 只 是 个 

最 人 简单 的 例子 ， 如 果 节 点 的 “深度 ”足够 ,还 会 有 先 非 节点 (Ancestor) 和 后 代 节 点 

(Descendant) 。 

XPath 使 用 路 径 表 达 式 在 XML 文档 中 选取 节点 。 表 5-1 中 列 出 了 最 常用 的 路 径 表 达 

TK 


115 


Python Px) Zee Seay 


表 5-1 路 径 表 达 式 


表达 式 描述 
选取 此 节点 的 所 有 子 节 点 
从 根 节点 选取 


从 匹配 选择 的 当前 节点 选择 文档 中 的 节点 ， 不 考虑 它们 的 位 置 


| ams 


.| 选取 当前 节点 的 父 节点 
= | TRTA 


FH XPath 选择 需 来 “采集 ”XML 文件 中 所 需 的 内 容 ， 先 做 好 准备 工作 。 执 行 命令 : 


python 

from scrapt.selector import Selector 
with open(*./superHero.xml’,’r’) as fp: 
body = fp.read() 

Selector (text=body) .xpath(‘/*’) .extract () 


HCA Python, +A scrapy.selector 模块 中 的 Selector, +T FF superHero.xml 文件 ， 并 将 
其 内 容 写 入 到 body 变量 中 ， 最 后 使 用 XPath 选择 器 显示 superHero.xml 文件 中 的 所 有 内 容 。 
执行 结果 如 图 5-5 所 示 。 


king@debian:~/code/crawler/scrapyProject/seletors$ python 
Python 2.7.9 (default, Mar 1 2015, 12:57:24) a 
I[GCC 4.9.2] on linux2 
Type "help", "copyright", "credits" or "license" for more information. 
>>> from scrapy.selector import Selector 
>>> with open('./superHero.xml',*r') as frp: 
body = fp.read() 


>>> body 


ass>\n<class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spidex 
Man </alias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unkno 


s iL. 2 e. 
fas>Iron Man </alias>\n\t<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age> 
47 </age>\n</class>\n<class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\ 
<alias>Spider Man </alias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\ 
n\t<age>unknown </age>\n</class>\n<class>\n\t<name lang="en">Steven Rogers </nam 
ee eee America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 


5-5 XPath 选择 器 准备 工作 


选择 器 在 从 根 节 点 选择 所 有 节点 时 得 到 的 数据 和 直接 从 文件 中 读 取 的 数据 有 点 不 一 样 。 
因为 示例 文件 并 不 是 一 个 标准 的 html 文件 ， 所 以 在 选择 器 中 被 自动 添加 了 <html> 和 


<body> 标 签 。 也 就 是 说 在 选择 器 看 来 ， 示 例文 件 的 根 节 点 并 不 是 <superhero> M Æ 
<html>。 
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好 了 ， 现 在 来 看 如 何 使 用 XPath 选择 器 “收集 ”数据 ， 如 图 5-6 所 示 。 


Es > princ(" SS supertero. xml $ R—PelasshI =e") 
7 superHero. aml + S—~j class% A= 


[u'<clasa>\n\t<name py TY Stark </name>\n\t<alias>iIron Man </alias>\n\t 
<sex>male </sex>\n\tccbircnday>is6s </bircnday>\n\t<aege>s7 </age>\n</class>"j] 
>>> 
>>> print (' J S superHero. «smi Œ BS —TPelassbinA =’) 
Ff superHero. aml $+ HBS — class b] AS 
>>> Selecror (rexrc=bod -Xpath (" /hneml/body/ superhero/cliassflasr 

n an en"™> nam n <alias> oes 
@lias>\n\t<sex>male </sex>\n\t<bircnday>is200704 </birtnday>\n\t<age>s6 </age>\n 
</cliassa>'] 


>>> 
>>> prant (' #SsuperHero. xml name t Wenbi sre") 
HE superHero. aml name R fe en AIRS 


es a Stark </name>*, u’®<name langren"™>Peter Benjamin Parker 
*, u'<nmame lang="en">Steven Rogers </name>'] 


>>> print(' SiS superHero. xml + He S=_— tT 1 eee ee ) 

SESS superHero. xmı F Hs FS —_ MclessBJname D Æ AI 

>>> Selector (text—body) . xpath (i E puna eS tn 
) -extract () 

[u' Peter Benjamin Parker ‘'j 

>>> 

>>> prant(* See ee ) 

CL Rea hI RSE 

>>> subBody = isaac a N xpatn('/ntml/body/ supernero/ciassa[last()-1j]'").- 

a 
>>> subsody 

fe ’<clessr>\no\t<eneme lang="en">Peter Benjamin Parker </nemer\no\t<Kelies Spider Man 
<falias>\n\t<sex>malie </sex>\n\t<birtcnday>unknow </biartnday>\n\t<age>unkmown </ 

age>\n</class>"] 


>>> Selector (text—subso0a o ° atnhn('/neuml/body/ class/sex/text()"') extract () 
[u'mate | 

>>> Selector (text=s3ubBod Oo - ath ("//clasa/a3aeX8/texXxt()"'") . extract ( 

[av malie 


5-6 XPath 选择 器 收集 数据 
XPath 中 最 常用 的 几 个 方法 就 是 如 此 了 ， 非 常人 简单 。“ 隐 藏 ”得 不 太 深 的 数据 直接 用 


XPath 选择 器 挑选 数据 束 可 以 了 。 复 杂 一 点 的 ， 用 配套 选择 就 能 很 方便 地 搞定 。 只 要 有 点 耐 
\,， 再 复杂 的 数据 也 可 以 分 离 出 来 。 


5.2.2 CSS 选择 器 
CSS， 看 起 来 很 眼熟 是 不 是 ? 没 错 ， 就 是 你 已 经 知道 的 那个 CSS 一 一 层 车 样式 表 。CSS 
规则 由 两 个 主要 的 部 分 构成 : AFEA, 以 及 -条 或 多 条 声明 。 
selector {declarationl; declaration2; ... declarationN } 
CSS 是 网 页 代码 中 非常 重要 的 一 环 ， 即 使 不 是 专业 的 Web 从 业 人 员 ， 也 有 必要 认真 学 习 
一 下 。 这 里 只 简略 介绍 一 下 与 爬虫 密切 相关 的 选择 占 ， 表 5-2 中 列 出 了 CSS 经 党 使 用 的 几 个 
表 5-2 CSS 选择 器 


pacts | ie | AE cass “inno” SER OOO 
sa | firstname | ed “Firstname” ATR 

=o ce 
ml o aaen 


a 


117 


Python Mtge R Sea 


与 XPath 选择 需 相 比较 ，CSS Wea mAs, TAKIN AHEAD S IX AOR BA o 
FERRA — F CSS EPR ae a BG WE 5-7 所 示 。 


>>> Selector (text=body) css ('class*) extract |) a 


[u'<class>\n\t<name lang="en">Tony Stark </name>\n\t<alias>Iron Man </alias>\n\t 
<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>47 </age>\n</class>', u'< 
class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spider Man </a 
lias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unknown </age> 
\n</class>', u'<class>\n\t<name lang="en">Steven Rogers </name>\n\t<alias>Captai 
n America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\t<age 
l>96 </age>\n</class>'] 

>>> 

>>> Selector (text=body).css('class name').extract() 

[u' Mane tang="en"elony stark </name>’, u <name fang="en">Peter Benjamin Parker 
</name>', u'<name lang="en">Steven Rogers </name>'] 


[>>> Selector (text=body).css('class name').extract() [0] 
u'<name lang="en">Iony Stark </name> 


>>> Selector (text=body) .css(' [lang]') .extract() [0] 
u'<name lang="en">Tony Stark </name>' 


>>> Selector (text=body) .css (" [angen en l extract |) 

{[u'<name lang="en">Iony Stark </name>', u'<name lang="en">Peter Benjamin Parker 
</name>', u'<name lang="en">Steven Rogers </name>'] 

>>> 


5-7 CSS 选择 器 收集 数据 


因为 CSS 选择 费 和 XPath 选择 器 都 可 以 舱 套 使 用 ， 历 以 它们 可 以 互相 骨 套 ， 这 样 一 来 收 
集 数据 会 更 加 方便 。 


5.2.3 ”其 他 选择 器 

XPath 选择 器 还 有 一 个 -re0 方 法 ， 用 于 通过 正则 表达 式 来 提取 数据 。 然 而 ， 不 同 于 使 
用 .xpath0 或 者 .css() 方 法 ，.re0 方 法 返回 unicode 字符 串 的 列表 ， 所 以 无 法 构 迄 区 僚 式 的 .re() 调 
用 。 使 用 方法 如 图 5-8 所 示 。 


>>> 
>>> Selector (text=body) .xpath('/html/body/superhero/class[1]').re('>.*?<') 


{u'>Tony Stark <', u'>Iron Man <', u'>male <', u'>1969 <', u'>47 <'j 
>>> 


5-8 re 选择 器 收集 数据 
这 种 方法 并 不 常用 。 个 人 觉得 还 不 如 在 程 订 中 添加 代码 ， 直 接 用 re 模块 方便 。 


因为 Scrapy 选择 需 建 于 lxml 之 上 ， 所 以 它 也 文 持 一 些 EXSLT 扩展 ， 但 这 里 就 不 做 说 明 
了 ， 有 兴趣 的 读者 可 以 目 行 Google. 


5 ° 3 Scrapy MERSER — : 今日 影视 


还 记得 前 和 而 章节 中 用 re Pee BE EME He LE Se ee HY PG PER H EY Ar? 
实际 上 用 Scrapy KERS eas. FIT, BI TE re 模块 息 取 当日 影视 相当 
于 是 做 作文 ， 而 使 用 Scrapy KIERA FIRAT, R EEA DY ES LA T Ea 
可 以 了 。 
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5.3.1 创建 Scrapy 项 目 

似乎 所 有 的 框架 ， 开 始 的 第 一 步 都 是 从 创建 项 目 开 始 的 ，Scrapy 也 不 例外 。 在 这 之 前 要 
说 明 的 是 Scrapy 项 目的 创建 、 配 置 、 运 行 …… 默 认 都 是 在 终端 下 操作 的 。 不 要 觉得 很 难 ， 其 
实 它 真 的 非常 简单 ， 填 空 题 而 已 。 如 果实 在 是 无 法 接受 ， 也 可 以 花 点 心思 配置 好 Eclipse， 在 
这 个 万 能 IDE 下 操作 。 个 人 推荐 还 是 在 终端 操作 比较 好 ， 虽 然 开始 可 能 因为 不 熟悉 而 出 现 很 
多 错误 ， 不 过 人 类 不 就 是 在 错误 中 前 进 吗 ? 错 多 了 ， 印 象 深刻 了 ， 也 就 自然 学 会 了 。 打 开 
Putty 连接 到 Linux， 开 始 创建 Scrapy 项 目 。 执 行 命令 : 


执行 结果 如 图 5-9 所 示 。 


king@debian:~$ cd 
king@debian:~$ cd code/crawler/scrapyProject/ 
king@debian:~/code/crawler/scrapyProject$ scrapy startproject todayMoive 
ew Scrapy project ‘todayMoive' created in: 
/mnt/disk/sync/code/crawler/scrapyProject/todayMoive 


ou can start your first spider with: 
cd todayMoive 
scrapy genspider example example.com 
king@debian:~/code/crawler/scrapyProject$ tree todayMoive 
oda yMoive 


= scrapy.cfg 

todayMoive 
init__.py 
items.py 
pipelines.py 
settings.py 


2 directories, 6 files 
kingêdebian:~/code/crawler/scrapyProject$ [] 


5-9 ”创建 todayMoive M H 
i tree 命令 将 以 树 形 结构 显示 文件 目录 结构 。tree 命令 默认 情况 下 是 没有 安装 的 ， 可 以 执行 
| ”命令 aptgetinstalltree 来 安装 这 个 命令 。 


zag 
ae 


这 里 可 以 很 清楚 地 看 到 todayMoive 目录 下 的 所 有 子 文件 和 子 目 录 。 至 此 Scrapy 项 目 
todayMoive 基本 上 完成 了 。 按 照 Scrapy 的 提示 信息 ， 可 以 通过 Scrapy 的 Spider 基础 模版 顺 
便 建 立 一 个 基础 的 爬虫 。 相 当 于 把 填空 题 打 印 到 试卷 上 ， 等 竺 填空 了 。 当 然 ， 也 可 以 不 用 
Scrapy 命令 建立 基础 息 虫 ， 如 果 非 要 体验 一 下 DIY 也 是 可 以 的 。 这 里 我 们 还 是 怎么 简单 怎么 
来 吧 ， 按 照 提 示 信 息 ， 在 该 终端 中 执行 命令 : 
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执行 结果 如 图 5-10 所 示 。 


+ 


50| x 


|king@debian:~/code/crawler/scrapyProject/todayMoives scrapy genspider wuHanMoive + 
Spider jycinema.com 
Created spider ‘wuHanMoiveSpider’ using template ‘basic’ in module: 
todayMoive.spiders.wuHanMoiveSpider 
king@debian:~/code/crawler/scrapyProject/todayMoiveS tree ../todayMoive 
. ./todayMoive 
= scrapy.cfg 
todayMoive 

_ init .py 

_init .pyc 

items.py 

Pipelines .py 

settings.py 

settings.pyc 

spiders 


init__.py 
__init__.pyc 
wuHanMoiveSpider.py 


2 directories, 10 files 
king@debian: ~/code/crawler/scrapyProject/todayMoive$ |] 


图 5-10 ”创建 基础 息 虫 


至 此 ， 一 个 最 基本 的 息 虫 项 目 己 经 建立 完毕 了 ， 它 包含 了 一 个 Scrapy MEES m WYSE a SC 
件 。 到 这 一 步 可 以 说 填空 题 已 准备 完毕 ， 后 和 面 的 工作 就 纯粹 是 填空 了 。 上 图 中 第 一 行文 字 
scrapy genspider 是 一 个 命令 ， 也 是 scrapy 最 常用 的 几 个 命令 之 一 ， 它 的 使 用 方法 如 图 5-11 所 


— 


7N o 


a kina 


kingêdebian:~/code/crawler/scrapyProject/todayMoive$ scrapy genspider -h 
Usage 


scrapy genspider [options] <name> <domain> 


Generate new spider using pre-defined templates 


show this help message and exit 
List available templates 
Edit spider after creating it 
--dump=TEMPLATE, -d TEMPLATE 
Dump template to standard output 
—-template=TEMPLATE, -t TEMPLATE 
Uses a custom template. 
--force If the spider already exists, overwrite it with the 
template 


Global Options 


--logfile=FILE log file. if omitted stderr will be used 
--loglevel=LEVEL, -L LEVEL 
log level (default: DEBUG) 


5-11 scrapy genspider 命令 帮助 


因此 ， 刚 才 的 命令 意思 是 使 用 scrapy genspider 命令 创建 一 个 名 字 为 wuHanMoiveSpider 


的 爬虫 脚本 。 这 个 脚本 搜索 的 域 为 jycinema.com. 


5.3.2 Scrapy 文件 介绍 


Scrapy 项 目的 所 有 文件 都 已 经 到 位 了 ， 如 上 图 5-10 所 示 ， 下 面 来 看 看 各 个 文件 的 作用 。 


首先 最 顶层 的 那个 todayMoive 文件 夹 是 项 目 名 ， 这 个 没什么 好 说 的 。 


在 第 二 层 中 是 一 个 与 项 目 同名 的 文件 夹 todayMoive 和 一 个 文件 scrapy.cfg， 这 里 与 项 目 
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同名 的 文件 夹 todayMoive 是 模块 (也 可 以 叫做 包 的 )， 所 有 的 项 目 代 码 都 在 这 个 模块 (文件 
夹 或 者 叫 包 ) 内 添加 。 而 scrapy.cfg 文件 ， 顾 名 思 义 它 是 整个 Scrapy 项 目的 配置 文件 。 来 看 
看 这 个 文件 里 有 些 什么 。Scrapy.cfg 文件 内 容 如 下 : 


除去 以 “#” 为 开头 的 注释 行 ， 整 个 文件 只 声明 了 两 件 事 。 一 是 定义 默认 设置 文件 的 位 置 
为 todayMoive 模块 下 的 settings 文件 ， 二 是 定义 项 目 名 称 为 todayMoive。 

在 第 三 层 中 有 6 个 文件 和 一 个 文件 夹 (实际 上 这 也 是 个 模块 ) 。 看 起 来 很 多 。 实 际 上 有 
用 的 也 就 3 个 文件 ， 分 别 是 items.py、pipelines.py、settings.py。 其 他 的 3 个 文件 中 ， 以 pyc 
结尾 的 是 同名 Python 程序 编译 得 到 的 字 节 码 文件 ，settings.pyc 是 settings.py 的 字 节 码 文件 ， 
_init .pyc 是 _init .py 的 宇 节 码 文件 。 据 说 用 来 加 快 程序 的 运行 速度 ， 可 以 忽视 。 至 于 
int py 文件 ， 它 是 个 空 文件 ， 里 面 什 么 都 没有 。 在 此 处 唯一 的 作用 就 是 将 它 的 上 级 目录 
变 成 了 一 个 模块 。 也 就 是 说 第 二 层 的 todayMoive 模块 下 ， 如 果 没 有 init py 文件 。 那 么 
todayMoive 就 只 是 一 个 单纯 的 文件 夹 。 在 任何 一 个 目录 下 添加 一 个 空 的 _init_ py XIF, Wè 
会 将 该 文件 夹 编程 模块 化 ， 可 以 供 Python 导入 使 用 。 

有 用 的 这 3 个 文件 中 。settings.py 是 上 层 目 录 中 scrapy.cfg 定义 的 设置 文件 。settings.py 
的 内 容 如 下 : 
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items.py 文件 的 作用 是 定义 爬虫 最 终 需 要 哪些 项 ，items.py 的 内 容 如 下 : 


pipelines.py 文件 的 作用 是 扫尾 。Scrapy 疏 虫 疏 取 了 网 页 中 的 内 容 后 ， 这 些 内 容 怎么 处 理 
就 取决 于 pipelines.py 如 何 设 置 了 。pipeliens.py 文件 内 容 如 下 : 


第 二 层 中 还 有 一 个 spiders 的 文件 夹 。 仔 细 看 一 下 ， 在 该 目录 下 也 有 个 _init_.py 文件 ， 
说 明 这 个 文件 夹 也 是 一 个 模块 。 在 该 模块 下 是 本 项 目 中 所 有 的 爬虫 文件 。 

第 三 层 中 有 3 个 文件 ， init .py、 init .pyc、wuHanMoiveSpider.py。 前 两 个 文件 刚 
才 已 经 介绍 过 了 ， 基 本 不 起 作用 。wuHanMoiveSpider.py 文件 是 刚才 用 scrapy genspider 命令 
PEREX HE. WuHanMoiveSpider.py 文件 内 容 如 下 : 


122 


#58 Scrapy 爬虫 框架 


FEARING Ht A AN BH, eI. IARI RA 4 个 文件 ， 它 们 分 别 是 items.py、 
settings.py ~ pipelines.py ~ wuHanMoiveSpider.py. 其 中 items.py # sé JE Hx Ob He A, 
wuHanMoiveSpider.py WERA, settings.py 决定 由 谁 去 处 理 爬 取 的 内 容 ，pipelines.py 决定 
爬 取 后 的 内 容 怎 样 处 理 。 


5.3.3 Scrapy WERS 

My first scrapy crawl 怎么 简单 ， 怎 么 清楚 就 怎么 来 。 这 个 爬虫 只 疏 取 当日 电影 名 字 ， 那 
我 们 只 需要 在 网 页 中 采集 这 一 项 即 可 。 

1 . 选择 肛 取 的 项 目 iems.py 

修改 items.py 文件 如 下 : 


wa 
EAR iF Python 中 严格 的 格式 检查 。Python 中 最 常见 的 异常 ndentationEmror 会 经 常 出 现 。 如 
果 使 用 的 编辑 器 是 vi 或 者 vim， 强 烈 建议 修改 vi 的 全 局 配置 文件 etc/vim/vimre， 将 所 有 
的 4 个 空格 变 成 tab。 


jj 
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与 最 初 的 items.py ER — F, BBUR WER Et SC FEARS OS fs BEM AY IH 
目 ， 然 后 将 类 结尾 的 pass HHS. KERNELS MAE Python 类 ， 它 没有 一 般 
Python 类 的 _init_ 的 解析 函数 ， 没 有 类 函数 ， 只 定义 了 类 成 员 。 虽 然 它 从 结构 上 更 类 似 于 
Python 的 字典 ， 但 守 无 疑问 它 的确 就 是 一 个 Python 类 。 

2 . 定义 怎样 息 取 wuHanMoiveSpider.py 

修改 wuHanMoiveSpiderpy， 内 容 如 下 : 


在 这 个 python 文件 中 ， 首 先导 入 了 scrapy 模块 ， 然 后 从 模块 〈 包 ) todayMoive 中 的 
items 文件 中 导入 了 Todaymoiveltem 类 ， 也 就 是 刚才 定义 需要 疏 行 内 容 的 那个 类 。 
WuhanmoiveSpider 是 一 个 日 定义 的 仆 虫 类 ， 它 是 由 scrapy genspider 命令 目 动 生成 的 。 这 个 目 
定义 类 继承 于 scrapySpider 类 。 第 7 行 的 name 定义 的 是 爬虫 名 。 第 8 行 的 allowed domains 
定义 的 是 域 范 围 ， 也 就 是 说 该 扑 虫 只 能 在 这 个 域内 有 息 行 。 第 9 行 的 start_urls 定义 的 是 爬行 的 
网 页 ， 这 个 谎 虫 只 需要 改行 一 个 网 页 ， 所 以 在 这 里 start_urls 可 以 是 一 个 元 组 类 型 。 如 果 需 要 
疏 行 多 个 网 页 ， 最 好 使 用 列表 类 型 ， 以 便于 随时 在 后 面 添加 需要 疏 行 的 网 页 。 

EEX IK] parse 函数 需要 参数 response， 这 个 response 就 是 请 求 网 页 后 返回 的 数据 。 至 
于 怎么 从 response 中 选取 所 需 的 内 容 ， 笔 者 一 般 采 取 两 种 方法 ， 一 是 直接 在 网 页 上 得 看 网 页 
源 代码 ， 二 是 自己 写 个 python 程序 用 urllib2 将 网 页 返回 的 内 容 写 入 到 文本 文件 中 ， 再 慢 慢 地 
查询 。 
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打开 Chrome it) iat, TERHERE A DUKE, ATIF, WR 5-12 所 示 。 
” IMAX 3D woo E iE 


汉 销 品 茂 IMAX 店 


宝贝 当家 (HF) 
星期 五 , 29 七 月 2016 
a s 10:30 Hid 12:20 


国语 又 19:40 & id 21:30 


图 5-12 MC HR YR 


同一 网 页 内 的 同一 项 目 格式 基本 上 都 是 相同 的 ， 所 以 只 需要 找到 一 个 项 目的 选择 器 位 置 
就 可 以 了 。 就 以 最 上 面 的 这 个 电影 《宝贝 当家 》 为 例 ， 在 网 页 中 右 击 空白 处 ， 在 弹出 菜单 中 
选择 “查看 网 页 源 代码 ”， 如 图 5-13 Bra. 


FONI iim SIM AX Je 


si Pa ML 重新 加 载 (R) 
宝贝 当家 (AS) 
号 存 为 (A)... 


星期 五 , 29 七 月 2016 打印 (P)... 


国语 本 10:30 国语 加 12:20| Sexe 
O AdBlock 
国语 JESI 19:40 国语 EO 21:30 @ Download all links with IDM 


查看 网页 源 代码 (V) 


图 5-13 ”查看 网 页 源 代码 


打开 源 代 码 网 页 ， 按 Ctrl+F 组 合 键 ， 在 查找 框 中 输入 “宝贝 当家 ”后 按 回 车 键 ， 查 找 结 
果 如 图 5-14 所 示 。 


<div class="film list“> 
<div class=“filn-item “ dat a~cinema~ide" 1029" data-movie-id="dscaDdWigL” data-att ribute-short-nane=""> 
<div clas=“movie image” 
<div class=“image-out er "> 
<div style="backgroumd-image: url ( // wow. jycinema. com/CDN/Image/Ent it y/FilmPost erGraphic/h-dscaDdi gL? 
width=1214amp ;sheight=180" ui > 
5 


<img class=“rating-image” src=" 
height="22* ae 


ar 
</div> 


图 5-14 查找 关键 词 
整个 源 代码 网 页 只 有 一 个 查询 结果 ， 那 就 是 它 了 。 仔 细 看 看 怎样 才能 得 到 这 个 字符 串 
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We? 用 XPath 一 个 一 个 地 数 Tag 标签 ， 不 是 不 可 以 ， 只 是 使 用 Scrapy 就 是 为 了 简单 方便 ， 如 
果 要 一 个 一 个 地 数 ， 那 和 使 用 re 模块 获取 字符 串 也 就 没什么 区 别 了 。 

这 里 通常 使 用 和 藤 套 选 择 器 。 一 个 字符 串 不 好 选 ， 但 这 个 标签 块 却 很 好 选 ， 然 后 在 标签 块 
中 选择 字符 串 ， 这 样 就 方便 多 了 。 比 如 选择 离 目 标 字 符 串 最 近 的 标签 <div class="film- 
header">， 在 脚本 中 执行 语句 : 


意思 是 选择 整个 网 页 中 所 有 以 div 为 标签 class 属性 为 “film-header” 的 块 ，subSelector 
是 一 个 列表 ， 里 面 装 的 是 选择 器 。 然 后 再 执行 语句 : 


意思 是 在 这 个 块 中 ， 选 择 下 级 标签 为 <a> 的 下 级 标签 为 <h3> 的 字符 串 ， 并 将 其 解析 出 
来 。 选 择 器 的 选择 到 底 对 不 对 呢 ? 可 以 验证 一 下 ， 在 该 项 目的 任意 一 级 目录 下 ， 执 行 命令 : 


执行 结果 如 图 5-15 所 示 。 


= x 


[2016-07-26 23:34:33+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid a 
ldleware, OffsiteMiddleware, RefererMiddleware, UrilLengthMiddleware, DepthMiddlew 
are 

2016-07-26 23:34:33+0800 [scrapy] INFO: Enabled item pipelines: TodaymoivePipeli 
ne 

|2016-07-26 23:34:33+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 
023 

2016-07-26 23:34:33+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
2016-07-26 23:34:33+0800 [wuHanMoiveSpider] INFO: Spider opened 

2016-07-26 23:34:33+0800 [wuHanMoiveSpider] DEBUG: Crawled (200) <GET http://www 
-jJycinema.com/browsing/Cinemas/Details/1029> (referer: None) 

[s] Available Scrapy objects: 

[s] crawler <scrapy.crawler.Crawler object at Ox7fb0ed57d910> 

[s] item {} 


et e 站 me Pur nena Om/ Dro ele nema : = LU - 
[s] response <200 http://www.jycinema.com/browsing/Cinemas/Details/1029> 
ete DV。 ele e Sele aje = JF DU es D U 
{s] spider <WuhanmoiveSpider '‘wuHanMoiveSpider' at 0x7fb0ec715110> 
{s] Useful shortcuts: 
{s] shelp() Shell help (print this help) 


{s] fetch(req_ or_url) Fetch request (or URL) and update local objects 
{s] view (response) View response in a browser 


In [1]: || 


5-15 scrapy shell 


response 后 面 的 200 是 网 页 返回 代码 ，200 代表 获取 数据 正常 返回 ， 如 果 出 现 其 他 的 数 
字 ， 屠 就 得 仔细 检查 代码 了 。 现 在 可 以 放心 地 验证 了 ， 执 行 命令 : 


执行 结果 如 图 5-16 所 示 。 
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2016-07-26 23:42:37+0800 [wuHanMoiveSpider] INFO: Spider opened 


2016-07-26 23:42:384+0800 [wuHanMoiveSpider] DEBUG: Crawled (200) <GET http://www 
-jycinema.com/browsing/Cinemas/Details/1029> (referer: None) 
[s] Available Scrapy objects: 
crawler <scrapy.crawler.Crawler object at 0x7£776fad0910> 
item {} 
request <GET http://www. jycinema.com/browsing/Cinemas/Details/1029> 
response <200 http://www.jycinema.com/browsing/Cinemas/Details/1029> 
settings <scrapy.settings.Settings object at 0x7£77704c9750> 
spider <WuhanmoiveSpider ‘wuHanMoiveSpider' at 0x7£776ec68110> 
Useful shortcuts: 
shelp () Shell help (print this help) 
fetch(req_ or url) Fetch request (or URL) and update local objects 
view (response) View response in a browser 


In [1]: subSelector = response.xpath('//div[@class="film-header"] ') 


In [2]: print subSelector([0].xpath('./a/h3/text()').extract() 
{u' \uSb9d\uSdid\uSf53\uS5bb6 \uff08\u6570\uSb57\uff£09"'] 


In [3]: ap en ee ee 
¢ ) 


图 5-16 验证 选择 器 


第 一 次 print 的 结果 是 一 堆 数字 码 ， 那 是 因为 scrapy 默认 将 爬 取 的 内 容 转 成 了 unicode 
码 。 如 果 要 把 它 变 成 可 见 的 汉 宇 ， 那 就 将 字符 串 使 用 encode(“utf8’) 转 换 成 utf8 码 。 

看 来 选择 器 的 选择 没 问 题 。 再 回头 看 看 wuHanMoiveSpider.py 中 的 parse 函数 就 很 容易 理 
解 了 。 代 码 第 14 行 先 用 选择 器 选择 了 一 个 “ 块 ”。 第 15 行 定义 了 一 个 items WEIK, IX 
里 定义 items 的 列表 是 因为 返回 的 item 不 止 一 个 ， 所 以 只 能 让 item 以 列表 的 形式 返回 。 第 17 
ÍT item 初始 化 为 一 个 Todaymoizeltem() 的 类 ， 这 个 类 是 从 todayMoive.items 中 导入 过 来 的 。 
第 18 行将 已 经 初始 化 类 item 中 的 moiveName 项 赋值 。 第 19 行将 item 追加 到 items 列表 中 
去 。 最 后 return items， 注 意 这 里 返回 的 是 items， 不 是 item。 


3 . 保存 肛 取 的 结果 pipelines.py 
修改 pipelines.py， 内 容 如 下 : 
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APHASIA DEE, Eee fey. EAE FE 4 AN EA H Se OR CE HY a 
分 。 然 后 把 wuHanMoiveSpider.py 中 获取 项 的 内 容 输 入 到 该 文件 中 。 这 个 脚本 中 只 需要 注意 
两 点 。 第 一 ，open 妙 数 创建 文件 时 必须 是 以 追加 的 形式 创建 ， 也 就 是 说 open 函数 的 第 二 个 
参数 必须 是 a。 因 为 wuHanMoiveSpider.py 返回 的 是 一 个 item 列表 items， 这 里 的 写 入 文件 只 
能 一 个 一 个 item 地 写 入 。 如 果 open 函数 的 第 二 个 参数 是 w， 造 成 的 后 果 就 是 先 探 除 前 面 写 
入 的 内 容 ， 再 写 入 新 内 容 ， 一 直 循 环 到 items 列表 结束 ， 最 终 的 结果 就 是 文件 里 只 保存 了 最 
后 一 个 item 的 内 容 。 第 二 是 保存 文件 中 的 内 容 如 果 含 有 汉字 就 必须 转换 成 utf8 A. WMA 
unicode 码 保存 到 文件 中 正常 人 类 都 是 无 法 识别 的 ， 所 以 还 是 转换 成 正常 人 类 能 识别 的 utf8 
吧 。 

到 了 这 一 步 ， 这 个 Scrapy ERER EER To EIS) scrapy.cfg 文件 的 同 级 目录 下 《实际 
上 只 要 是 在 todayMoive 项 目下 的 任意 目录 中 执行 都 行 ， 之 所 以 在 这 一 级 目录 执行 纯粹 是 为 了 
美观 而 已 )， 执 行 命令 : 


scrapy crawl wuHanMoivespider ——— 
结果 却 什么 都 没有 ? 为 什么 呢 ? 
4 . 分 派 任 务 的 settings.py 


KAA settings.py 的 初始 代码 。 它 仅 指 定 了 Spider MBNA. FAG SU Spider MË 
虫 的 开头 ， 它 导入 了 items.py 作为 模块 ， 也 就 是 说 现在 Scrapy CAME y EREA, 
FMEA A, m pipelines 说 明了 最 终 的 仆 取 结果 怎样 处 理 。 唯 一 不 知道 的 就 是 由 谁 来 处 理 这 
个 息 行 结果 ， 这 时 候 就 该 setting. py 出 点 力气 了 。setting.py 的 最 终 代 码 如 下 : 
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这 跟 初 始 的 settings.py ALK, WEER S — 4T ITEM_PIPELINES. ‘ee VF Scrapy 
最 终 的 结果 是 由 todayMoive 模块 中 pipelines 模块 的 TodaymoivePipeline 类 来 处 理 。 
ITEM_PIPELINES 是 一 个 字典 ,字典 的 key 用 来 处 理 结果 的 类 ， 字 典 的 value 是 这 个 类 执行 
的 顺序 。 这 里 只 有 一 种 处 理 方式 ，value 填 多 少 都 没 问题 。 如 果 需 要 多 种 处 理 结果 的 方法 ， 那 
就 要 确立 顺序 了 。 数 字 越 小 的 越 先 被 执行 。 

现在 可 以 测试 这 个 Scrapy 爬虫 了 ， 还 是 执行 命令 ;: 


执行 结果 如 图 5-17 所 示 。 


宝贝 当家 (>) 

HEH 〈 数 字 3D) 

rawa (AS) 

红色 等 戒 399 (HF) 

RSENS. 开端 (MF) 

刺 狂 小 子 之 天 生 我 刺 〈 数 字 ) 
Bas: 新 -大 摊 的 日 本 诞生 (K) 


(HF) 
条 (RS) 


(IMAX 3D) 


(HFD) 
: 险 战 从 林 (数字 3D) 
More-- (733) ff 


5-17 Scrapy 爬虫 结果 


好 了 ， 这 个 最 简单 的 爬虫 就 到 这 里 了 。 从 这 个 项 目 可 以 看 出 ，Scrapy JERR ap eM a A 
路 照章 填空 就 可 以 了 。 如 果 需 要 的 项 比较 多 ， 获 取 内 容 的 网 页 源 比较 复杂 或 者 不 规范 ， 可 能 
会 稍微 麻烦 点 ， 但 处 理 起 来 基本 上 都 是 大 同 小 异 的。 与 前 章 的 re 爬虫 相 比 ， 越 复杂 的 爬虫 就 
越 能 体现 Scrapy 的 优势 。 


5 ° 4 Scrapy ERSA : 天 气 预 报 


EEH Scrapy 做 了 一 个 最 简单 的 仆 虫 。 本 节 稍 微 增加 点 难度 ， 做 个 所 需 项 目 多 一 点 的 
和 候 虫 ， 并 将 扑 虫 的 结果 以 多 种 形式 保存 起 来 。 我 们 就 从 网 络 天 气 预 报 开始 吧 。 
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541 项 目 准 备 


自 先 要 做 的 是 确定 网 络 天 气 数据 的 来 源 。 打 开 百 度 ， 搜 索 “ 网 络 天 气 预报 ”， 搜 索 结 果 


如 图 5-18 所 示 。 


oo 
Bai 交 百度 ”网 络 天 气 预 报 


网 页 ”新 间 


百度 为 您 找到 相关 结果 约 6,950,000 个 


PEAS pe AR. TS A 


由 5 吧 


Ee 音乐 BR 识 频 地 图 RE BS 


REILE 


PRAM SARMA RAS ARERR AE IRATE 
FAE FAPRSAS ASR RS SAME SS. 
IRR Swe ASR ARS 

WwwWeather com_cm ~ - BE EAS - 1615 iF hij 


中 国 天 气 网 为 您 提供 立时 全 国 天 气 气象 信 筷 , 及 时 农 布 天 气 预报、 突 害 
预 窗 ， 气 象 二 图 、 旅 游 天 气 、 问 网、 暴 朵 杰 等 气象 信息 .为 我 国 的 生产 


生活 捍 世 全 面 靖 确 的 气象 服务 


25 于 与 


图 5-18 


有 很 多 网 站 可 以 选择 ， 任 


www.weather.com_cn/for... ~ - GIS PH - 161 条 评 谷 
py z Baa 


: AX 未 3 we = 
*xAS (www-tiang). com *#RHSa HRS AMMA kaw 
OBEREA 实时 更新 天 气 .准确 担 世 无 气 巴 把 一 让 查询 驴 未 未 
无 气 预 扳 10 无 、15 无 、 一 个 月 查询 

www.tiangi.com/ ~ - Bsethae - 10275877 it 


百度 搜索 数据 来 源 站 点 
意 选 择 一 个 都 可 以 。 这 里 笔者 选择 的 是 


http:/wuhan.tianqi.com/。 在 浏览 器 中 打开 该 网 站 ， 并 找到 所 属 的 城市 ， 将 会 出 现 当 地 一 周 的 


天 气 预报 ， 如 图 5-19 所 示 。 


FERK AGE 武汉 生活 指数 武汉 历史 天 气 武汉 空气 质量 
武汉 今天 天 气 武汉 当前 温度 风向 风力 Pi2.5: 90 SS 
晨练 指数 : 适宜 
洗车 指数 : 较 适 宜 
oneal 旅游 指数 : 适宜 
| 22 
Wis} cad) 
多 去 BREE: 44% 东北 网 oi ee 
东北 风 ?级 24 小 时 天 气 预 报 微 信 扫 措 关 注 天 天 播报 天 气 ae E> 
湖北 武汉 天 气 预报 一 周 武汉 10 天 天 气 。 武汉 15 天 天 气 。 武汉 30 天 天 气 
武汉 今日 天 气 武汉 明日 天 气 武汉 后 天 天 气 武汉 06 日 天 气 武汉 07 日 天 气 武汉 08 日 天 气 
PHR FHB 星期 一 星期 二 星期 三 星期 四 
ee CS EC ENE Pi ER 
多 去 多 去 多 去 阴 多 去 阴 
东北 风 2 级 。 无 持续 风向 微风 ”无 持续 风向 微风 ”无 持续 风向 微风 。 无 持续 风向 微风 无 持续 风向 微风 


图 5-19 ”本 地 一 周 天 气 


在 这 里 ， 包 含 的 信息 有 城市 日 期 、 


星期 、 天 气 图 标 、 温 度 、 天 气 状 况 以 及 风 同 。 除 了 天 


气 图 标 是 以 图 片 的 形式 显示 ， 其 他 的 几 项 都 是 字符 串 。 本 节 Scrapy EEK HERKES MAH 
有 用 信息 。 至 此 ，items.py 文件 已 经 呼之欲出 了 。 
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5.4.2 ”创建 编辑 Scrapy MEH 


首先 还 是 打开 Putty， 连 接 到 Linux。 在 工作 目录 下 创建 Scrapy 项 目 ， 并 根据 提示 依照 
spider 基础 模版 创建 一 个 spider。 执 行 命令 : 


执行 结果 如 图 5-20 所 示 。 


king@debian:~$ cd 
king@debian:~$ cd code/crawler/scrapyProject/ 
king@debian:~/code/crawler/scrapyProject$ <S3ZapY_ Stertprojsct weather 
New Scrapy project ‘weather’ created in: 
/mnt/disk/sync/code/crawler/scrapyProject/weather 


You can start your first spider with: 

cd weather 

scrapy genspider example example.com 
king@debian:~/code/crawler/scrapyProject$ cd weather 
king@debian:~/code/crawler/scrapyProject/weather$ scrapy genspider wuHanSpider w 


uhan . tiangi . com 
reated spider ‘wuHanSpider’ using template ‘basic’ in module: 


weather.spiders.wuHanSpider 
king@debian:~/code/crawler/scrapyProject/weather$ 0 


5-20 ”创建 Scrapy 项 目 
项 目 模 版 创建 完毕 ， 项 目 文件 如 图 5-21 所 示 。 


king@debian:~/code/crawler/scrapyProject/weather$ tree ../weather 
../weather 


= scrapy.cfg 
weather 


_ init .py 
_init .pyc 
items .py 
pipelines.py 
settings.py 
settings.pyc 
spiders 
init__.py 
__init__.pyc 


wuHanSpider.py 


2 directories, 10 files 
king@debian:~/code/crawler/scrapyProject/weathers p 


图 5-21 基础 项 目 模版 


1 . 修改 items.py 
按照 上 一 节 中 的 顺序 ， 第 一 个 要 修改 的 还 是 items.py。 修 改 后 的 items.py 代码 如 下 : 
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在 items.py 文件 中 ， 只 需要 将 希望 获取 的 项 名 称 按照 文件 中 示例 的 格式 填 入 进去 即 可 。 
唯一 再 要 注意 的 束 是 每 一 行 最 前 面 的 到 撒 是 空格 还 是 Tabstop。 这 个 文件 可 以 说 是 Scrapy ME 


虫 中 最 没有 技术 含量 的 一 个 文件 了 。 填 空 ， 惑 是 填空 而 已 。 


2 . 修改 Spider 文件 wuHanSpiderpy 


按照 上 一 节 的 顺序 ， 第 二 个 修改 的 文件 应 该 轮 到 spiders/wuHanSpider.py 了 。 暂 时 先 不 要 


修改 文件 ， 使 用 scrapy shell 命令 来 测试 、 获 取 选 择 右 。 执 行 命令 : 


执行 结果 如 图 5-22 所 示 。 


tMiddleware, 
2016-07-28 02:13:53+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid 
dGleware, OffsiteMiddleware, RefererMiddleware, UrilLengthMiddleware, DepthMiddlew 


are 
2016-07-28 
2016-07-28 
023 
2016-07-28 
2016-07-28 
2016-07-28 
anqi.com> 


02: 
02: 


02: 
02: 
02: 
(referer: None) 


213: 
aoe 


i33 
:53+0800 
13: 


13 


53+0800 
53+0800 


53+0800 


53+0800 


CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats 


[scrapy] INFO: Enabled item pipelines: 
[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 


[scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
(wuHanSpider] INFO: Spider opened 
{wuHanSpider] DEBUG: Crawled (200) <GET http://wuhan.ti 


[s] Available Scrapy objects: 


crawler 
item 
request 


settings 


spider 
Useful shortcuts: 
shelp() 
fetch(req or_url) Fetch request (or URL) and update local objects 
view (response) 
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{} 
<GET ht 


<Wuhans 


<scrapy.crawler.Crawler object at 0x7£6403811950> 


tp://wuhan.tianqgi.com> 
://wuhan.tiangi.com> 
<scrapy.settings.Settings object at 0x7f640420a790> 


PiderSpider ‘wuHanSpider’ at 0x7£64029a9050> 
Shell help (print this help) 


View response in a browser 


5-22  scrapy shell 
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从 上 图 可 看 出 response 的 返回 代码 为 200， 是 正 第 返回 ， 已 成 功 获取 该 网 页 的 response. 
下 面 开 始 试验 选择 器 了 。 打 开 Chrome 浏览 器 〈 任 意 一 个 浏览 句 都 可 以 ， 哪 个 方便 用 哪 
在 地 址 栏 输入 http:/wuhan.tianqicom， 按 Enter 键 打开 网 页 。 在 “武汉 今天 天 气 ” 这 个 
杠 娘 内 任意 衬 日 处 单 击 右键 ， 选 择 “ 符 看 框 光 源 代码 ”《〈 有 的 城市 页 面 没有 使 用 框架 如 上 
海 ， 那 还 是 选择 “得 看 网 页 源 代 码 ”) ， 如 图 5-23 所 示 。 


BRAT | 武汉 生活 指数 | 。 武汉 历史 天 气 | 武汉 空气 质 里 SRE Hi TESS HIM 
n ae 返回 (B Alt+ MARES 
武汉 今天 天 气 武汉 当前 温度 sate a 
079298 前进 (F Alt+ ih 
重新 加 载 (R) Ctrl+R 
4 另存 为 (A)... Ctrl+S 
s1C 270 打印 (P)... Ctrl+P 
BA 相对 湿度 : 80% Bax ( 简体 ) T) 
南 风 128 24 小 时 天 气 预报 at 
OQ AdBlock e 
湖北 武汉 天 气 预报 一 周 @ Download all links with IDM 
武 况 今日 天 气 武汉 明日 天 气 武汉 后 天 天 和 气 
星期 五 星期 六 星期 日 
Ctrl+Shift+j 
Sf Gi mj eo HO TETE 35°C“27°C 35°C “27°C 34°C'~26'C 
睛 上 晴 晴 Bz 小 雨 小 雨 
AM 18 无 持续 风向 微风 ”无 持续 风向 微风 ”无 持续 风向 微风 FSRA 微风 无 持续 风向 微风 


图 5-23 ”查看 源 代码 


在 框 淋 源 代码 页 ， 使 用 Ctrl+f 组 合 键 俘 找 关键 词 “ 星 期 ”， 很 容易 束 找 到 所 需 数 据 的 位 
H, WR 5-24 Ara. 


<span style="line-height: 32px:" class=" zhoubiantianqgi”><a href="http: //wuha 

href="http: //wuhan. tianqi. com/15/">#RIR ISAK A</ Dhe 12288 : #12288: <a href="http: //wuhan. ti 
</div> 
<div class=“sixday_detail“> 
<div class=“everytqshow" id=" detail”> 

<div class" i ad t reaa R font color=" #0066cc" > 今 今日 4 fort >KA</h3><p HMA </p><ul><1li class="tqpng” ><img class’ 
align= absmiddle src= ang png” style=’ border: 0: width: 46px :height: 46px’ /></1i><1i><font 
color="#f00">37'°C</font >~ ont color=" #4899be" >27 Cf IDAD lili style="height : 18px; overflow:hidden > 南 风 19R</1i></ul><, 

<div class=“ tqshowl “>hD>EFER <font color=“ red” ig prone ola worn green’ EMAR fnt puli 
class="tqpng” ><img class=’ pngtqico align=’ absmiddle’ src=’ stati 
style= border :0;width:46px;height :46px /></1i><1li><font color=" #600" at CU fort >” <font color= sans >2T C</fort></1D> DIY 1i><1i 
style="height : 18px; overflow:hidden > 无 持续 风向 PR</1i></ul></ div> 

<div class=“ tqshowl “>dh3> 武 汉人 font color=“ red“ Meg pape de he color=’ green ERA </font></p><ub<li 
class="tqpng” ><img class=’ pngtqico align= absmiddle’ src=’ 
style=’ border :0;width:46px;height :46px /></1i><1i><font ie #600" >37 C</fort >” <font color="#4899be">27 C</font /1i><1i> 睛 4/1iX1i 
style="height : 18px; overflow:hidden > 无 持续 风向 fR</1i></ul></ div> 

<div class=“tqshowl O hD ERU ARTS BHA—</p><ub<li class=“tqpng”><img class=’ pngtqico’ aligre’ absmiddle’ 
src=’ http://img.tiangi. com/ st atic/images/tiamaibig/bl.png”’ style=" border: 0; width: 46px :height: 46px’ /></11><1i><font color“#f00" >35°C<, 
<font color="#4899be" >27C</fant></1i><1DSA</1>i style="height: 18px :overflow:hidden > 无 持续 风向 HRL</1i></ul </div> 

<div class=“tqshowl”><h>RR02BRA</h3><p> BBA </p><ub><li class=“tqpng"><img class=’ pngtqico’ aligre’ absmiddle’ 
src=’ http://img. tiangi. com/static/images/tiangibig/bT. png” style’ border: 0; width: 46px :heieht: 6px’ /></1iD><1i><fomt color="#f£00">35°C<, 
<font color="#4899be" >27°C</fomt></11><1i>)\f}</1><1i style=“height: 18px :overf low: hidden"》 无 持续 风向 PAL </1i></ul></div> 

<div class=“tqshowl”><h>HRRBBA</h3><p> Bw =</p><ub<li class=“tqpng”><img class=’ pngtqico’ aligre’ absmiddle’ 


src=’ http://img.tiangi. com st atic/images/tiamaibig/b7.png”’ style=" border: 0; width: 46px ;height:d6px" /></11><1i><font color=“#f00" >34'C<, 
<font color="#4899be" >26°C</font></1i><1i>)\A</1i><1i style="height: 18px :overflow: hidden"》 无 持续 风向 HR</1i></ul></div> 
</div> 
</div> 


5-24 ”查找 所 需 数据 位 置 


因为 所 需 数据 都 是 以 <div class="tqshow1"> 为 开头 的 ， 试 下 查找 页 和 面 还 有 没有 其 他 以 <div 
class="tqshow1"> 为 开头 的 数据 。 如 果 没 有 就 可 以 将 <div class="tqshow1"> 作 为 XPath 的 销 
点 ， 如 图 5-25 所 示 。 
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<span style=" line-height: 32px;" class=" zhoubiantianqi*><a href="http:// 
="http: //wuhan. tiangi. com/15/">#R ISA W</ Das 12288; #12288: <a href="http: //wuhan. ti 
</div> 
<div class=“sixday_detail”> 
<div class=“everytqshow" id="detail”> 
Seas sw <> FR <font color="#0066cc">S B</font >KA</h3><p>B MAA</p><ul><1i class="tapnge” ><img class= 
a= absmiddle’ src=" http://img. tiangi. co st atic/images/tiangibig/b0.png’ style=’ border: 0: width: 46px :height: 46px’ /></11><11><font 
r="#£00">37°C</font>*<font color="#4899be">27°C</font ></1i><1DIA</1i><1li style="height : 18px; overflow:hidden) MM, 19R</1i></ul 
<div class=“tqshowl*><h>#UR <font color="red” Teh Te color=’ green’ EMA font puli 
s="tqpng” ><img class=” pngtqico align=’ absmiddle’ src=’ ht -tiangi. com st atic/images/tiangibig/b0. 
= border :0 ;width:46px:; height :46px’ /></1i><li><font color=" #600" >37°C</font >~<fomt color=“#4899be*>27°C</ font ></1i><1DHA</11><13 
oo haight A, overflow:hidden AHRR Ali uD div> 
<div class= “tqshowl ”>d3> 武 汉人 font color=” red“ ERY fort > 天 飞人 /h3> 人 pfort color=’ green’ EMA fnt puli 
s="“tapng” ><img class="pngtqico’ align=’ absmiddle’ src=’ ht .tiangi. com st atic/images/tiangibig/b0. 
==’ border:0 :width:4 6px: height :46px /></1i><1li><font color=" #f00" >3T°C</font > <font color="#4899be">27°C</ font ></1i><1 DIA lili 
2="height : 18px; overflow:hidden > 无 持续 风向 fMP</1i></ul></ div> 
rm class= “tqshowl PhDR ROAR AS/h3><p> = HA </p><ul><li class=“tqpng"><img class=’ pngtqico” aligre’ absmiddle’ 
i .pne” style=’ border: 0; width: 46px ;height:d6px /></11><1D<font color="#f00" >35°C< 
t sate ry 27 C</font></1iX1DHa</1><di style="height: 18px :overf low: hidden" > 无 持续 风向 MRV</1i></ul></div> 
<div class="tqshow1“》h3> 武 况 02 日 天 气 4Yh3>《p》 星 期 二 </p><ul><li class=“tqpng"><img class=’ pngtqico’ aligre’ absmiddle’ 
' i ” style’ border: 0; width: 46px height: 46px’ /></1i><1i><font color="#f00" >35°C< 
t color=" #4899be" SOT C</fant></1i Xli yhli <i style=“height: 18px ;overflow:hidden > 无 持续 风 同 WM </1i></ul></div> 
<div class="tqshowl “><h>RRO3BRAK</h3><p> BBA = </p><ub<1li class=“tqpng"><img class=" pngtaqico’ aligre’ absmiddle’ 
‘http://img.tiangi. com st atic/images/tianaibig/bT. png’ style’ border: 0; width: 46px ;height:46px’ /></11><1D<fomt color="#f00" >34°C< 
t color="#4899be" >26°C</f ont></1i><li>)sf9</1i><1i style="height: 18px :overf low: hidden" > 无 持续 风向 PR </1i></ul></div> 
</div> 
</div> 


5-25 ”测试 锚 点 


从 测试 结果 看 出 ， 整 个 源 代 码 页 面 总 共 只 有 6 个 <div class="tqshow1"> 标 签 ， 可 以 将 它 作 
为 XPath isio [EJF Putty 下 的 scrapy shell 中 ， 执 行 命令 : 


执行 结果 如 图 5-26 所 示 。 
ep | king@debian: ~/code/crawler/scra se r — 


: subSelector = response.xpath('//div[@class="tqshowi"]') 
: subSelector 


[<Selector xpath='//div[@class="tqshowi"]' data=u'<div class="tqshowi"><h3>\u6éb6 
6\u6c49<font color="'>, 

<Selector xpath='//div[@class="tqshowl"]' data=u'<div class="tqshow1"><h3>\u6b6 
6\u6c49<font color="'>, 

<Selector xpath='//div[@class="tqshowi"]' data=u'<div class="tqshowi"><h3>\u6b6 
6\u6c49<font color="'>, 

<Selector xpath='//div[@class="tqshowl"]' data=u'<div class="tqshow1"><h3>\u6b6 
6\u6c4901\u65e5\u5929\u6c14</h3><p>'>, 

<Selector xpath='//div[@class="tqshowi"]' data=u'<div class="tqshowi"><h3>\u6b6 
6\u6c4902\u65e5\u5929\u6c14</h3><p>'>, 

<Selector xpath='//div[@class="tqshowl"]' data=u'<div class="tqshow1"><h3>\u6b6 
6\u6c4903\u65e5\u5929\u6c14</h3><p>'>] 


In [11]: [|] 


5-26 ”确定 XPath 锚 点 
然后 从 subSelector 中 提取 有 效 数 据 ， 如 图 5-27 所 示 。 
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HDR <font color=“#0066cc" > 今日 4 fort > 天 3><p> BAA </p><ul><li class="tap 
” src= http://img.tiangi. com st atic/images/tiangibig/bU.png style= border: 0: width: 46px :height: 46px’ />< 
fort> <font color=“#4899be" >27°C</font i>《1i》 晴 人 1i><1i style="height : 18px; overflow:hidden > 南 风 


I oeda doi poed | ACEA 


: subSelector[0] .xpath('./p/text()') .extract() 
: [u'\u661f\u671f\u4e94'] 


: subSelector[0] .xpath('./ul/li[1]/img/@src') .extract() 
: [u'http://img.tianqgi.com/static/images/tianqibig/b0.png' ] 


: subSelector[0].xpath('./ul/1i[2]//text()').extract () 
: [u'37\u2103", u'~', u'27\u2103') 


: subSelector[0].xpath('./ul/1li[3]//text()').extract() 
: [u'\u6674"] 


: subSelector[0] .xpath('./ul/li[4]//text()').extract() 
: [u'\uS357\u98ce 1\u7ea7'] 


5-27 XPath 选择 器 获取 数据 


图 5-27 中 标识 了 item['cityDates'] 所 需 数据 的 来 源 位 置 和 XPath 选择 右 的 工作 流程 (因为 
h3 标签 内 还 含有 其 他 的 标签 ， 所 以 这 里 选择 方式 为 '.h3//text()" 而 不 是 '.h3/textQ0')。 到 这 一 步 ， 
Scrapy 项 目的 Spider 文件 wuHanSpider.py 也 已 成 形 了 。wuHanSpider.py 的 代码 如 下 : 
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文件 开头 别 息 了 导入 scrapy 模块 和 items 模块 。 在 第 8~11 行 中 ， 给 start_urls 列表 添加 
了 上 海天 气 的 网 页 〈 刚 创建 时 wuHanSpiderpy 时 ，start_urls 是 一 个 元 组 ， 为 了 便于 添加 多 个 
网 页 ， 所 以 将 start_urls 改 成 了 列表 )。 如 果 还 想 添 加 其 他 的 城市 天 气 ， 可 以 在 第 8 行 的 citys 
列表 中 添加 城市 代码 。 


3 . 修改 pipelines.py， 处 理 Spider 的 结果 
这 里 还 是 将 Spider 的 结果 保存 为 txt 格式 ， 以 便于 阅读 。pipelines.py 文件 内 容 如 下 : 


| S58 Scrapy 有 爬虫 框架 


第 1 行 ， 确 认 字 符 编 码 。 回 想 一 下 ， 在 Spider 文件 wuHanSpider.py 中 似乎 也 有 这 一 行 。 
这 是 因为 Scrapy 默认 将 所 有 获取 数据 的 编码 定义 成 utfg。 第 8~10 行 ， 导 入 所 需 的 模块 。 第 
14~15 行 ， 用 time 模块 确定 了 当天 的 年 月 日 ， 并 将 其 作为 文件 名 。 第 17~29 行 ， 将 所 获取 的 
数据 转换 为 编码 ， 然 后 存储 到 文件 中 。 第 30 行 用 time.sleep 暂停 1 秒 ， 可 以 避免 因为 数据 写 
入 太 快 而 丢失 数据 的 问题 。 如 果 得 到 的 数据 为 图 片 ， 将 使 用 urllib2 模块 下 载 图 片 到 当前 目录 
Fo os 模块 用 于 判断 图 片 是 否 已 经 下 载 过 。 


4 . 修改 settings.py , 决定 由 哪个 文件 来 处 理 获取 的 数据 


这 个 就 很 简单 了 ， 跟 上 节 的 settings.py 没什么 区 别 ， 直 接 将 pipelines.py 添加 到 
ITEM_PIPELINES 中 去 就 可 以 了 。settings.sp 文件 内 容 如 下 : 


最 后 ， 回 到 weather 项 目下 ， 执 行 命令 : 
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得 到 结果 如 图 5-28 所 示 。 
scrapy.cfg weather 


AGedebian:~ aje -Mn BDVELO Weace ule ©. txt 
上 海 今日 天 气 星期 五 b4.png 390-2901 雷阵雨 ILA 微风 


上 海 明 日 天 气 星期 六 bo.png 370-281 @ REA 1-2 级 
上 海 后 天 天 气 性 期 日 bl.png 350-281 $Z REA 1-2 级 
武汉 今日 天 气 旺 期 五 bo.png 37 (~280 H 南 风 3 级 


上 海 01 日 天 气 星期 一 bi.png 350-280 $Z 东南 风 1-2 级 
武汉 明日 天 气 BRA vo.png 37t~2et M 无 持续 风向 微风 
上 海 02 日 天 气 。 星期 二 bl.png 350-270 多 云 KREA 1-2 级 
武汉 后 天 天 气 ”星期 日 bo.png 370-291 晴 无 持续 风向 微风 
上 海 03 日 天 气 B= bs.png 33-270 FR KAA 1-2 级 
武汉 01 日 天 气 。 星期 一 bi.png 350-7271 多 云 ”无 持续 风向 微风 
武汉 02 日 天 气 。 星期 二 b7.png 35-270 DA 无 持续 风向 微风 


5-28 ”保存 结果 为 txt 


至 此 ， 一 个 完整 的 Scrapy ERCA T o KAERRA AER kE EAER E E 
虫 稍 微 复杂 一 点 ， 但 流程 基本 是 一 样 的 ， 都 是 做 填空 题 而 已 。 


5.4.3 ”数据 存储 到 json 


上 节 已 经 完成 了 一 个 Scrapy 爬虫 ， 并 将 其 肘 取 的 结果 保存 到 了 txt 文件 。 但 txt 文件 的 优 
点 仅仅 是 方便 阅读 ， 而 程序 阅读 一 般 都 是 使 用 更 方便 的 json. cvs 等 等 格式 。 有 时 程序 员 更 加 
希望 将 疏 取 的 结果 保存 到 数据 库 中 便于 分 析 统 计 。 所 以 ， 本 节 将 继续 讲解 Scrapy MERR 
方式 ， 也 就 是 继续 对 pipelines.py 动手 术 。 

这 里 以 json 格式 为 例 ， 其 他 的 格式 都 大 同 小 异 ， 读 者 可 上 自行 摸索 测试 。 既 然 是 保存 为 
json 格式 ， 当 然 就 少不了 Python 的 json 模块 了 。 幸 运 的 是 json 模块 是 Python 的 标准 模块 ， 
无 须 安装 可 直接 使 用 。 

保存 爬 取 结果 ， 那 必定 涉及 了 pipelines.py。 我 们 可 以 直接 修改 这 个 文件 ， 然 后 再 修改 一 
下 settings.py 中 的 ITEM PIPELINES 项 即 可 。 但 是 仔细 看 看 settings.py 中 的 
ITEM_PIPELINES 项 ， 它 是 一 个 字典 。 字 典 是 可 以 添加 元 素 的 。 因 此 完全 可 以 目 行 构造 一 个 
Python 文件 ， 然 后 把 这 个 文件 添加 到 ITEM_PIPELINES 不 就 可 以 了 吗 ? 这 个 思路 是 否 可 行 ， 
测试 一 下 就 知道 了 。 

为 了 “表明 身份 ”， 笔 者 给 这 个 新 创建 的 Python 文件 取 名 为 pipelines2json.py， 这 个 名 
字 人 简单 明了 ， 而 且 显 示 了 与 pipellines.py 的 关系 。pipelines2.json 的 文件 内 容 如 下 : 
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然后 修改 settings.py 文件 ， 将 pipelines2json 加 入 到 ITEM PIPELINES 中 去 。 修 改 后 的 
settings.py 文件 内 容 如 下 : 


Python 网 络 息 虫 实战 


测试 一 下 效果 。 回 到 weather 项 目下 执行 命令 : 


得 到 的 结果 如 图 5-29 所 示 。 


king@debian:~/code/crawler/scrapyProject/weather$ 1s 

20160729.json bO.pnmg b4.png b&.png weather 

20160729.txt bi.png b7.png scrapy.cfg 
king@debian:~/code/crawler/scrapyProject/weather$ more *.json 

i"week": "FAA", "temperature": "37(~28", "img": "http://img.tiangi.com/stati 
c/images/tiangibig/bO.png", "cityDate": "ANS HRA", "weather": "HB", "wind": 
" 南 风 3 级 "} 

i"week": "EAA", "temperature": "37(~28", "img": "http://img.tiangi.com/stati 
c/images/tiangibig/bO.png", "cityDate": "武汉 明日 天 气 "，"weather": "i", "wind": 
"无 持续 风向 微风 "} 

|i"week": "是 期 五 "， "temperature": "390~290", "img": "http://img.tiangi.com/stati 

|c/images/tiangibig/b4.png", "cityDate": "上 海 今日 天 气 "，"weather": "BEM", "wi 
nd": " " 

i"week": "EAH", "temperature": "370~290", "img": "http://img.tiangi.com/stati 
c/images/tiangibig/bO0.png", "cityDate": "武汉 后 天 天 气 "， "weather": "i", "wind": 
"无 持续 风向 微风 "} 

i"week": "时 期 六 ",， "temperature": "370~280", "img": "http://img.tianqi.com/stati 
c/images/tianqibig/b0.png", "cityDate": "上 海 明 日 天 气 "，"weather": "HE", "wind": 
"ABM 1-2 级 "} 

fmweekn: "EEB—="=) "temperature": "350~270", "img": "http://img.tiangi.com/stati 
c/images/tiangibig/bi.png", "cityDate": "武汉 01 日 天 气 "，"weather": "Ba", "wind 
": "无 持续 风向 微风 "} 

i"week": "时 期 日 ",， "temperature": "35(~28t", "img": "http://img.tianqi.com/stati 
c/images/tiangibig/bi.png", "cityDate™: "上 海 后 天 天 气 "，, "weather": "22", "wind + 


5-29 ”保存 结果 为 json 


从 上 图 看 来 试验 成 功 了 。 按 照 这 个 思路 ， 如 果 要 将 结果 保存 成 cvs 等 格式 ，settings.py 应 
该 怎么 修改 就 很 明显 了 。 


5.4.4 数据 存储 到 MySQL 

数据 库 有 很 多 ，MySQL、Sqlite3、Access、Postgresql 等 等 ， 可 选择 的 范围 很 广 。 笔 者 选 
择 的 标准 是 ，Python LER. WEBBERA. EHIE, HP Python fr Hi BERR UA iF 
sqlite3 。 但 谁 让 Sqllit3 声名 不 显 呢 ，Access 不 能 跨 平台 。 所 以 这 里 笔者 选择 名 气 最 大 ， 
Python 文 持 也 不 错 的 MySQL. MySQL 使 用 人 数 众 多 ， 资 料 随 处 可 见 ， 出 现 问 题 咨 询 也 挺 方 
E. MWEE T o 

在 Linux 上 安装 MySQL 很 方便 。 首 先 连接 Putty Ja, EH root 用 户 权 限 ， 执 行 命令 : 
© apt-get install mysql-server mysql-client 


在 安装 过 程 中 ， 会 要 求 输入 MySQL 用 户 root 的 密码 (此 root JEE root， 一 个 是 系统 用 
F root， 一 个 是 MySQL 的 用 户 root). 

MySQL 安装 完毕 后 ， 默 认 是 目 动 司 动 的 。 首 先 连 接 到 MySQL 上， 查看 MySQL 的 字符 
编码 。 执 行 命令 : 


执行 结果 如 图 5-30 所 示 。 
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= | O 


Copyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved. 


Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
owners. 


Type ‘help;' cr '\h' for help. Type '\c' to clear the current input statement. 


mysql> SHOW VARIABLES LIKE 'character%'; 
十 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 一 + 
| Value 


character _set_client 

character set_connection | 

character set_database | latini 

character set_filesystem | binary 

character set_results ut fs 

character set_server latini 

character set system utf8 

character sets dir f/usr/share/mysql/charsets/ 


8 rows in set (0.00 sec) 


mysql> 0 


5-30 MySQL 默认 字符 编码 


其 中 character set database 和 character set server 设置 的 是 latinl 编码 ， 刚 才 用 Scrapy 采 
集 的 数据 都 是 utf8 编码 。 如 果 直 接 将 数据 加 入 数据 库 必定 会 在 编程 处 理 中 出 现 乱 码 问题 ， 所 
以 要 稍微 修改 一 下 。 网 上 流传 看 很 多 彻底 修改 MySQL 默认 字符 编码 的 帖子 ， 但 由 于 版 本 的 
问题 ， 不 能 通用 。 所 以 只 能 采取 第 方法 ， 不 修改 MySQL 的 环境 变量 ， 只 在 创建 数据 库 和 表 
的 时 候 指 定 字 符 编 码 。 创 建 数 据 库 和 表格 ， 在 MySQL 环境 下 执行 命令 : 


执行 结果 如 图 5-31 所 示 。 


|oracle is a registered trademark of Oracle Corporation and/or its 
larriiiates. Other names may be trademarks ot their respective 
owners. 


Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. 
mysql> CREATE DATABASE scrapyDB CHARACTER SET 'utf8' COLLATE 'utf8 general Ci'; 


Query OK, 1 row affected (0.03 sec) 


mysql> USE scrapyDB ; 


id 

cityDate char(24), week char(6), 

img char(20), 

temperature char(i2), 

weather char(20), 

wind char(20), 

PRIMARY KEY(id) )ENGINE=InnoDB DEFAULT CHARSET=utf8; 


图 5-31 创建 数据 库 
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SEP aS ne BNE RUA FSS AD utf8、 名 字 为 scrapyDB 的 数据 库 。 第 二 条 
AOA BG. BAAS T ARUFE tB 4A wetaher 的 表格 。 
查看 这 个 表格 的 结构 ， 如 图 5-32 所 示 。 


mysql> show columns from weather; 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 ~---------------- + 
| Extra 


int (11) | NO 
char (24) | YES 
char (6) | YES 
char (20) | YES 
char (12) | YES 
char (20) | YES 
char (20) | YES 


7 rows in set (0.00 sec) 


mysql> 


图 5-32 ”查询 表 结 构 


由 图 5-32 可 以 看 出 表格 中 的 项 基本 与 wuHanSpider 疏 取 的 项 相同 。 至 于 多 出 来 的 那 一 项 
id， 是 作为 主键 存在 的 。MySQL 的 主键 是 不 可 重复 的 ， 而 wuHanSpider 爬 取 的 项 中 没有 符合 
这 个 条 件 的 ， 所 以 还 需要 另外 提供 一 个 主键 给 表格 更 加 合适 。 

创建 完 数据 库 和 表格 ， 下 一 步 创 建 一 个 普通 用 户 ， 并 给 普通 用 户 管理 数据 库 的 权限 。 在 
MySQL 环境 下 ， 执 行 命令 : 


执行 结果 如 图 5-33 所 示 。 


mysql> INSERT INTO mysql .user (Host,User,Password) VALUES ("%","crawlUSER",passwor 和 
d("crawli23™")); 
Query OK, 1 row affected, 3 warnings (0.00 sec) 


mysql> INSERT INTO mysql .user(Host,User, Password) VALUES ("localhost", "crawlUSER" 
, password ("erawl123")):; 
Query OK, 1 row affected, 3 warnings (0.00 sec) 


mysql> GRANT all privileges ON scrapyDB.* to crawlUSER@all IDENTIFIED BY 'crawli 
23's 
Query OK, 0 rows affected (0.00 sec) 


mysql> GRANT all privileges ON scrapyDB.* to crawlUSER@localhost IDENTIFIED BY ' 
crawli23'; 
Query OK, 0 rows affected (0.00 sec) 


mysql> exit; 


图 5-33 ”创建 新 用 户 、 赋 予 管理 权限 
第 1 条 命令 创建 了 一 个 用 户 名 为 crawlUSER 的 远程 用 户 ， 该 用 户 只 能 远程 登录 ， 不 能 本 
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地 登录 。 第 2 条 命令 创建 了 一 个 用 户 名 为 crawlUSER 的 本 地 用 户 ， 该 用 户 只 能 本 地 登录 ， 不 
能 远程 登录 。 第 3~4 条 命令 则 赋予 了 crawlUSER 用 户 管理 scrapyDB 数据 库 的 所 有 权限 。 最 
后 退出 MySQL。 至 此 ， 数 据 库 方 面 的 配置 已 经 完成 ， 静 竺 Scrapy 来 连接 了 。 

Python 的 标准 库 中 没有 直接 文 持 MySQL 的 模块 。 在 Python 第 三 方 库 中 能 连接 MySQL 
的 不 少 ， 这 里 笔者 选择 使 用 最 广 的 MySQLdb 模块 。 

© Linux 中 安装 MySQLdb 模块 


在 Linux 下 安装 MySQLdb 模块 ， 最 简单 的 方法 是 舍 助 Debian 庞大 的 软件 库 〈 可 以 说 ， 
只 要 不 是 私有 软件 ，Debian 软件 库 总 不 会 让 人 失望 )。 在 终端 下 执行 命令 : 


apt-get install python-mysqldb 


执行 结果 如 图 5-34 所 示 。 


EP king@debian: ~ 


rootGdebian: /home/kingt apt-get install python-mysqlidb 
正在 读 取 软件 包 列 表 . . 。 完成 

正在 分 析 坎 件 包 的 依赖 关系 树 

正在 读 取 状态 信息 .. 成 


| python-mysaqldb 已 经 是 最 新 的 版 本 。 
jpyphon-mysaid 被 设置 为 手动 安装 | 
升级 了 5 个 软件 包 ， 新 安装 了 0 个 软件 包 ， 要 和 基 载 0 个 软件 包 ， 有 0 个 软件 包 未 被 升级 


| 


图 5-34 Linux 安装 MySQLdb 模块 


系统 已 经 安装 过 的 会 显示 安装 信息 ， 没 有 安装 的 会 上 月 动 安装 。 当 然 也 可 以 使 用 pip 安 
装 。 
© Windows 中 安装 MySQLdb 模块 


在 Windows 或 Mac OS 下 安装 第 三 方 模块 只 能 使 用 pp， 没 有 其 他 的 选项 。 打 开 
cmd.exe， 执 行 命令 


pip install MySQL-python 


执行 结果 如 图 5-35 所 示 。 


C:Wsers\king>pip install MySQL-python 
ollecting MySQL-—python 

| Downloading MySQL—python-1.2-5_2zip C1if&kB> 
41% i | 45kB 2@kB/s eta 6:66:64 
45x I | 49kB 26kB/s cta 6:66:60 
48% i ! 53kB 2@kB/s eta 6:08: 
52% i i 57KB 22kB/s eta 6:68 
56x i | 61kB 22kB/s eta 6:8 
66% i | 65kB 18kB/s eta Ø 


63% i i 69kB 2@kB/s eta 
67% i 1 ?3kB 91kB/s eta 
71% i | ?7kB 91kB/s et 
75x% i 1 81kB 91kB/s e 
78x i ! 86kB 61kB/c 
82% i ! ?@kB 35kB/ 


86x i 34kB 26kB 
90% i ! 98kB 23k 
94% i i 1Ø2kB 2 
97% | ! 1@6kB 
106% | W: 110k 


图 5-35 Windows 安装 MySQLdb 模块 
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这 里 只 需要 注意 大 小 写 即 可 。 安 装 完 毕 后 就 可 以 将 MySQLdb 模块 导入 使 用 了 。 

Python 模块 已 经 准备 完毕 ，MySQL 的 库 表 格 也 准备 完毕 ， 现 在 可 以 编辑 
pipelines2mysql.py 了 。 在 项 目 名 为 weaterh 的 Scrapy 项 目 中 的 pipelines.py 同 层 目录 下 ， 使 用 
文本 编辑 器 编写 pipelines2mysql.py， 编 辑 完毕 的 pipeliens2mysql.py 的 内 容 如 下 : 


第 1 行 指定 了 疏 取 数据 的 字符 编码 ， 第 8~9 行 导 入 了 所 需 的 模块 。 第 20~31 行使 用 
MySQLdb 模块 将 数据 写 入 了 MySQL 数据 库 中 。 最 后 在 settings.py 中 将 pipelines2mysql.py 加 
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入 到 数据 处 理 数 列 中 去 。 修 改 后 的 settings.py 内 容 如 下 : 


实际 上 就 是 把 pipelines2mysql 加 入 到 settings.py 的 ITEM_PIPELINES 项 的 字典 中 去 就 可 
以 J o 
最 后 运行 scrapy MEE, AA MySQL 中 的 结果 ， 执 行 命令 : 


执行 结果 如 图 5-36 所 示 。 
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| 星期 六 | bi.png | 37C~28t 
| 星期 一 | bl.png | 34C~270 
| BEB | bl.png | 37(~28t 
| 量 期 一 | bl.png | 36[~26T 
| 星期 三 | b4.png | 33[~26T 
| BS = | b7.png | 340~26ť 
| 量 期 四 | b4.png | 330~25ť 
| 星期 三 | b7.png | 330~26ť 


| 是 期 四 | b7.png | 310~250 


133 rows in set (0.00 sec) 


mysql> [] 


5-36 MySQL 中 数据 


MySQL 中 显示 MySQLdb 模块 存储 数据 有 效 。 这 个 Scrapy M A BCMA SER T o 

一 般 来 说 为 了 阅读 方便 ， 结 果 保 存 为 txt 就 可 以 了 。 如 果 疏 取 的 数据 不 多 ， 需 要 存 入 表 
格 备 查 ， 那 可 以 保存 为 cvs 或 json 比较 方便 。 如 果 需 要 疏 取 的 数据 非常 大 ， 那 还 是 老 老 实 实 
考虑 用 MySQL 吧 。 专 业 的 软件 做 专业 的 事情 。 


D.D Scrapy 疏 虫 实战 三 : 获取 代理 


上 节 中 的 爬虫 虽然 将 数据 保存 起 来 ， 但 还 是 略 有 下 疲 。 例 如 cityDate 中 显示 了 城市 ， 显 
示 了 日 期 ， 但 并 没有 显示 有 具体 的 年 月 日 。 如 果 数 据 比 较 少 ， 还 可 以 慢 慢 地 反 推 计算 ;如 采 数 
据 多 了 ， 那 束 太 有 晾 烦 了 。 这 就 涉及 了 扑 取 数据 后 的 处 理 ， 本 市 我 们 讲解 一 下 扑 取 数据 后 如 何 
处 理 数据 。 


5.5.1 项 目 准备 

本 节 将 从 网 站 上 获取 免费 的 代理 服务 器 。 使 用 Scrapy 获取 代理 服务 器 后 ， 一 一 验证 哪些 
代理 服务 器 可 用 ， 最 终 将 可 用 的 代理 服务 器 保存 到 文件 。 

首先 要 做 的 是 找到 免费 代理 服务 器 的 来 源 。 浏 览 器 中 打开 百度 ， 搜 索 “ 免 费 代 理 服 务 
器 ”， 搜 索 结果 如 图 5-37 所 示 。 
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ae 
Ba 个 百度 “免费 代理 服务 器 加 


O 为 您 推荐 : proxy 在 线 国外 ”在线 代 理 服务 器 ”免费 网 页 在 线 代理 


快 代理 专业 为 您 提 世 代理 ip 网 买 | 代理 服务 咒 | 随 机 五 位 端口 高 苔 代理 | 高 匿 代理 ip 了 虫 代理 ip 出 
单 代 理 ip| 秘 密 代 理 ipl 独 享 代理 | 独 享 代理 ip| 高 速 http 代 理 | 免费 代理 ipl 
wwwkuaidailicom/ ~ Wi - 百度 快照 - 35 条 评价 


pp 代理 服务 器 地 址 为 主 , 
常年 提 众 免费 代理 ip 、qq 代 理 ip 、httpip 代 理 地 址 、 国 内 ip 代 理 等 网 游 
加 速 代 理 ip, 为 用 户 提供 最 优质 的 ip..… 

www.youdaili.net/ ~ - 百度 快照 - 评价 


2 个 回答 - m 问 时 间 : Smee 
[专业 ] 管 案 :一 般 情 况 有 这 几 种 :1、 代 理 服 务 器 软件 ,这 种 一 般 是 收费 的 ,但 可 能 也 有 免费 版 ;2、 
代理 ip 地 址 ,国内 外 的 很 多 ,这 种 属于 通过 第 三 方 抓 取 的 ,这 种 站 点 也 很 多 ,百度 
zhidao. baidu. comink?.. . v- 

Ri HAE RA ee 2013-08-13 
2016-04-11 


每 日 更 新 免费 HTTP 代 理 所 有 代理 均 为 6675 尖 品 记 医 代理 可 隐藏 IP 。 。 国 内 每 下 省 的 http 攻 名 代 
理 实 时 更 新 ， We 


图 5-37 搜索 免费 代理 服务 器 


先 在 www.proxy360.cn 中 获取 代理 服务 器 。 如 果 数 量 不 够 ， 可 以 在 www.xicidaili.com 中 
获取 代理 服务 器 。 

在 浏览 堪 中 打开 这 两 个 站 点 ， 观 察 所 需 的 项 目 。 发 现 大 部 分 的 项 目 都 相同 ， 共 有 的 项 目 
有 服务 器 下、 服务 器 端口 、 是 否 匿 名 、 服 务 器 位 置 。xicidaili 站 点 中 独 有 的 项 有 服务 协议 。 
最 后 还 应 该 添加 获取 服务 器 的 来 源 站 点 。 知 道 了 这 些 内 容 ，items.py 文件 基本 已 经 出 来 了 。 


5.5.2 创建 编辑 Scrapy Me 


打开 Putty 连接 到 Linux。 在 工作 目录 下 创建 Scrapy 项 目 ， 并 根据 提示 依照 spider 基础 模 
版 创建 一 个 spider。 执 行 命令 : 


这 里 创建 了 一 个 名 为 getProxy 的 Scrapy 项 目 ， 并 创建 了 一 个 名 为 proxy360Spiderpy 的 
Spider 文件 。 


1 . 修改 items.py 
根据 前 面 的 分 析 ，items.py 应 该 包含 6 项 。items.py 文件 内 容 如 下 : 
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需要 几 项 ， 就 填 入 几 项 。 最 简 模 式 就 是 只 要 代理 IP 和 端口 。 这 个 文件 没什么 好 解释 的 ， 
比较 简单 直 白 。 


2 . 修改 Spider 文件 proxy360Spider.py 


先 把 proxy360Spider.py 文件 放 到 一 边 。 使 用 scrapy shell 命令 查看 一 下 连接 网 站 返回 的 结 
果 和 数据 ， 进 入 getProxy 项 目下 的 任意 目录 下 ， 执 行 命令 : 


执行 结果 如 图 5-38 所 示 。 


tMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats a 
2016-07-31 19:22:32+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid 
dleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddlew 
are 

2016-07-31 19:22:32+0800 [scrapy] INFO: Enabled item pipelines: GetproxyPipeline 
2016-07-31 19:22:32+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 
023 

2016-07-31 19:22:324+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
2016-07-31 19:22:32+0800 [default] INFO: Spider opened 

2016-07-31 19:22:32+0800 [default] DEBUG: Crawled (200) <GET http://www.proxy360 
-cn/Region/China> (referer: None) 


[s] Available Scrapy objects: 
crawler <scrapy.crawler.Crawler object at Ox7ficcei9f3910> 


<Spider 
Useful shortcuts: 
shelp () Shell help (print this help) 
fetchl(req or url) Fetch request (or URL) and update local objects 
view (response) View response in a browser 


5-38  scrapy shell 
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从 response 的 返回 代码 可 以 看 出 request HIE MIKE]. SAA F response 的 数据 内 


fa style="width: 60px;" class="tbBottomLine">\r\n \u603b\u7684\ < 
u8bc4\u5206\r\n </span>\r\n <span style="width:30p 
x;" class="tbBottomLine">\r\n \uS3ef\u7528\r\n 
</span>\r\n <span style="width:100px; text-align:center; " class! | 
J="tbBottomLine">\r\n \u901f\uSea6\u6d4b\usbe4s\r\n 
</span>\r\n </div>\r\n\r\n\r\n \r\n <div class="proxyli 


stitem" name="list proxy ip">\r\n <div style="float:left; display:blo 
ck; width: 630px;">\r\n <span class="tbBottomLine" style="width: 140px; 
">\r\n 38 222 TEETE EAEAN </span>\r\n <span 
class="tbBottomLine" style="width: 50px;:">\r\n 3128\r\n 
</span>\r\n <span class="tbBottomLine ” style="width: 0px; ">\r\n 
\u9ad8\u533f\r\n </span>\r\n <span class=" 
thBottomLine " style="width: 70px;">\r\n \ude2d\usSé6fd\r\n 
</span>\r\n <span class="tbBottomLine " style="width: 80px:">\r\n 
O9\u670805\u6Se5\r\n </span>\r\n <span class 
="tbBottomLine " style="width: 80px;">\r\n 3.44(70\u7968)\r\n 
</span>\r\n <span class="tbBottomLine " style="width: 60px:">\r 
\n 3.44\r\n </span>\r\n <span class="tbBott 
omLine " style="width: 30px;">\r\n 14\u5929\r\n </span> 
\r\n </div>\r\n <div style="width:100px; float:left;">\r\n 
<div id="ct100 ContentPlaceHolderi repProxyList_ctl0l RatingSpee 
qa" title="3.44285714285714">\r\n\t\t<input type="hidden" name="ct100$ContentPlac 
eHolderiSrepProxyList$ctl0lSRatingSpeed RatingExtender ClientState” id="ctl00 Co 
ntentPlaceHolderi repProxyList cti101 RatingSpeed RatingExtender ClientState" val + 


5-39 response 数据 


返回 的 数据 中 含有 代理 服务 器 〈 难 道 返 回 代 码 为 200 IN, AIRS AN RRS Hs 
的 吗 ? 这 个 还 真有 ) 。 测 试 一 下 如 何 使 用 选择 器 在 response 中 的 得 到 所 需 的 数据 。 在 浏览 占 
中 打开 http:/www.proxy360.cn/Region/China， 在 网 页 的 任意 空白 处 单 击 右 键 ， 选 择 “ 查 看 框 
染 源 代码 ”， 打 开 页 面 的 源 代 人 码 网 页 ， 如 图 5-40 所 示 。 


© SC [D view-source:www.proxy360.cn/Region/China 
Hi 应 用 O 从 Firefox 导入 [2] EE G 伪 谷 歌 搜索 Y sEm? Y SSAA CO study 


<div class=“proxylistitem” name="list_proxy_ip"> 
<div style=“float:left; display:block; width: 630px; “> 
<span class=“tbBottomLine” style=“width: 140px ;“> 
61. 185. 219. 126 
</span> 
<span class="tbBottomLine” style="width:50px; "> 
3128 
</span> 
<span een eevee eee “ style="width: TOpx :> 


rf) 

</spar> 

<span class="“tbBottomLine “ style="width: 7Opx ;“> 
中 国 

</span> 

<span class="tbBottomLine “ style="width: 80px ;*> 
097058 

</spar> 

<span class="tbBottomLine “ style="width: 80px ;“> 
3. 36(22%) 

</span> 

<span class=" tbBottomLine “ style="width: 60px : 
3.36 

</spar> 

<span class="tbBottomLine “ style="width: 30px ; 
2 天 

</spar> 

</div> 

<div style=“width:100px; float: left :"> 
<div id="ct100 Cont entPlaceHolder1_repF 


5-40 ”页 面 源 代码 
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观察 一 下 ， 似 乎 所 有 的 数据 块 都 是 以 <div class="proxylistitem" name="list proxy ip"> 这 个 
tag 开头 的 。 在 scrapy shell 中 测试 一 下 ， 回 到 scrapy shell 中 ， 执 行 命令 : 


执行 结果 如 图 5-41 所 示 。 


£P king@debian: ~/code/crawler/scrapyProject/getProxy/getProxy — < 


In [9]: subSelector = response.xpath ('//div[@class="proxylistitem" and @name="li « 
st proxy ip"]') 


: subSelector. th('.//span[lil]/text()') .extract() [0] 
:2.2 


: subSelector.xpath('.//span[2]/text()'). AE 
: u’'\r\n 3128\r\n 


: subSelector.xpath('.//span[3]/text()'). cial EIA] 
: u'\r\n \u9ad8\u533£f\r\n 


: subSelector.xpath('.//span[4]/text()'). ee 
: u'\r\n \u4e2d\u56fd\r\n 


5-41 proxy360Spider 测试 选择 器 


| 所 得 数据 左右 两 侧 都 有 很 多 的 空格 。 


现在 如 何 用 选择 器 从 response 中 获取 所 需 数 据 的 方法 也 出 来 了 ， 接 下 来 可 以 开始 编写 
Spider 文件 proxy360Spider.py。proxy360Spider.py 的 内 容 如 下 : 
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在 http://www.proxy360.cn/Region/China 页 面 中 并 没有 显示 服务 器 使 用 的 协议 。 一 般 都 是 
HTTP 协议 ， 所 以 item[protocol] 统 一 设置 成 了 HTTP。 而 数据 来 源 都 是 proxy360 网 站 ， 
item['source'] 都 设置 成 了 proxy360。 

3 . 修改 pipelines.py， 处 理 Spider 的 结果 

这 里 还 是 将 Spider 的 结果 保存 为 txt 格式 ， 以 便于 阅读 。pipelines.py 文件 内 容 如 下 : 


在 13~18 行 中 ， 写 入 文件 时 除了 使 用 encode('utf8") 修 改 字符 编码 以 外 还 使 用 了 strip( eh Be 
去 除 所 得 数据 左右 两 边 的 空格 。 


4 . 修改 settings.py , 决定 由 哪个 文件 来 处 理 获 取 的 数据 


settings.py 稍 作 修 改 即 可 。 将 pipelines.py 添加 到 ITEM_PIPELINES 中 去 就 能 解决 问题 。 
settings.sp 文件 内 容 如 下 : 
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最 后 回 到 项 目 getProxy 目录 下 ， 执 行 命令 : 


执行 结果 如 图 5-42 所 示 。 


gp king@debian: ~/code/crawler/scrapyProject/getProxy 


"response received count': 8, 

"scheduler/dequeued': 8, 

"scheduler/dequeued/memory': 8, 

"scheduler/enqueued': 8, 

"scheduler/enqueued/memory': 8, 

‘start time": datetime.datetime(2016, 7, 31, 12, 14, 51, 316238)} 
{2016-07-31 20:14:534+0800 [proxy360Spider] INFO: Spider closed (finished) 
king@debian:~/code/crawler/scrapyProject/getProxy$ 1s 
getProxy Scrapy.cfg proxy.txt 

ing@debian:~/code/crawler/scrapyProject/qetProxy$ we -l proxy.txt 

king@debian:~/code/crawler/scrapyProject/getProxy$ more proxy.txt 
220.130.10.171 3128 HTTP BE 台湾 proxvy360 
§9.127.104.238 3128 proxy360 
163.29.225.250 8080 proxy360 
210.69.23.212 80 proxy360 
60.250.139.213 3128 proxy360 
stud. fhjh.tpc.edu.tw 台湾 proxy360 
61:57 155.236 80 proxy360 
60.251.221.98 3128 proxy360 
218.210.199.254 80 proxy360 
122.146.64.244 3128 proxy360 
59.120.104.56 8080 proxy360 
611.63.12.188 3128 proxy360 


5-42 scrapy crawl proxy360Spider 
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得 到 的 结果 没什么 问题 。 可 花 了 这 么 长 时 间 最 后 只 得 到 了 144 个 数据 的 结果 ， 性 价 比 也 
太 低 了 点 吧 。 不 过 没关系 ， 再 给 它 一 个 Spider 就 可 以 了 ， 一 个 站 点 的 数据 不 够 就 再 加 一 个 站 
尽 。 如 果 还 不 够 ， 那 就 继续 增加 站 点 吧 。 


5.5.3 多 个 Spider 


按照 一 个 Spider 的 思路 ， 得 到 的 proxy 数据 不 够 多 ， 则 可 以 在 www.xicidaili.com 中 获取 
代理 补足 。 到 项 目 getProxy 目录 下 ， 执 行 命令 : 


创建 一 个 名 为 xiciSpiderpy 的 Spider 文件 。items.py 无 须 修 改 了 ， 直 接 对 xiciSpider.py 做 
修改 就 可 以 了 。 我 们 还 是 先 用 scrapy shell 命令 来 确定 如 何 获取 数据 ， 执 行 命令 : 


scrapy shell http://www.xicidaili.com/nn/2 990 
得 到 的 结果 如 图 5-43 所 示 。 


023 
2016-07-31 20:28:10+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
2016-07-31 20:28:10+0800 [xiciSpider] INFO: Spider opened 
2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Retrying <GET http://www.xicidaili. 
com/nn/2> (failed 1 times): 500 Internal Server Error 
2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Retrying <GET http://www.xicidaili. 
com/nn/2> (failed 2 times): 500 Internal Server Error 
2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Gave up retrying <GET http://www.xi 
cidaili.com/nn/2> (failed 3 times): 500 Internal Server Error 
2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Crawled (500) <GET http://www.xicid 
a@ili.com/nn/2> (referer: None) 
[s] Available Scrapy objects: 
[s] crawler <scrapy.crawler.Crawler object at 0x7£5b39055910> 
[s] item {} 

eques e}: t D. nw, dē Om/ nn 


3 settings scrapy.seé ngs.ve ngs object at 0x7f£5b39a4e750> 


[s] spider <XicispiderSpider 'xiciSpider' at 0x7f5b381ef190> 

{s] Useful shortcuts: 
shelp() Shell help (print this help) 
fetch(req or url) Fetch request (or URL) and update local objects 
view (response) View response in a browser 


5-43 scrapy shell 


这 里 发 现 一 个 问题 。respnose 返回 的 代码 是 500， 要 知道 返回 码 是 200 才 是 正常 返回 。 在 
浏览 器 中 打开 http://www.xicidaili.com/nn/2 是 正常 显示 的 ， 而 该 网 页 并 不 需要 登录 ， 那 就 是 
说 并 不 涉及 cookie。 用 scrapy shell 请 求 页 面 和 用 浏览 器 请 求 页 面 用 的 是 同一 IP。 也 不 存在 IP 
封锁 的 问题 。 剩 下 的 就 只 有 headers 中 User-Agent 的 问题 了 。 除 去 所 有 的 不 可 能 ， 最 后 那 一 
选项 大 致 就 是 正确 答案 。 

在 Scrapy 中 的 确 是 有 默认 的 headers， 但 这 个 headers 与 浏览 器 的 headers 是 有 区 别 的 。 
有 的 网 站 会 检查 headers， 如 果 是 浏览 器 的 headers 网 站 则 予以 通过 ， 而 机 器 人 或 者 说 爬虫 的 
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headers 则 拒绝 访问 。 所 以 在 这 里 只 需要 给 scrapy 一 个 浏览 器 的 headers 就 可 以 解决 问题 了 。 
修改 settings.py 文件 内 容 如 下 : 


只 需要 在 settings.py 里 添加 一 个 USER AGENT 项 就 可 以 了 。 如 果 可 以 ， 尽 可 能 使 用 本 
HLM DEAS headers。 这 里 使 用 的 是 随意 选取 的 一 个 headers， 好 在 该 网 站 没有 根据 不 同 的 
headers 返回 不 同 的 内 容 。 

好 了 ， 再 回 到 getProxy 项 目的 目录 下 ， 使 用 scrapy shell 测试 如 何 获取 有 效 数 据 。 执 行 命 


令 : 
scrapy shell http://www.xicidaili.com/nn/2 © 


得 到 的 结果 如 图 5-44 所 示 。 


第 5 Scrapy ME HHE 


tH 


tMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats a 
2016-07-31 20:52:16+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid 
dleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddlew 
are 

2016-07-31 20:52:16+0800 [scrappy] INFO: Enabled item pipelines: GetproxyPipeline 
2016-07-31 20:52:16+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 
023 


:52:16+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
2016-07-31 20:52:16+0800 [xiciSpider] INFO: Spider opened 
2016-07-31 20:52:16+0800 [xiciSpider] DEBUG: Crawled (200) <GET http://www.xicid 
@ili.com/nn/2> (referer: None) 


{s] Available Scrapy objects: 
[s] crawler <scrapy.crawler.Crawler object at 0x7f£212465a910> 
[s] item {} 
at (= “ oul ama i ilaji i ahes ske 
[3] settings <scrapy.settings.Settings object at 0x7£2125053750> 
{s] spider <XicispiderSpider ‘xiciSpider’ at 0x7£21237f4190> 
{s] Useful shortcuts: 
[s] shelp() Shell help (print this help) 
[s] fetch(req_or_url) Fetch request (or URL) and update local objects 
[s] view (response) View response in a browser 


In [1]: | 


5-44 ”修改 headers 后 scrapy shell 


如 图 5-44 所 示 ，response 的 返回 码 为 200， 现 在 没 问 题 了 。 浏 览 器 中 打开 
http://www.xicidaili.commmn/2， 衬 日 处 单 击 右键 ， 选 择 “ 答 看 页 面 源 代 码 ”， 打 开 了 页 面 的 源 
代码 网 页 ， 发 现 所 需 数据 的 块 都 是 以 <tr class="odd"> 或 者 <tr class=""> 开 头 的 。 在 scrapy shell 
中 执行 命令 : 


执行 结果 如 图 5-45 所 示 。 


: subSelector = response.xpath('//tr[@class=""]|//tr[@class="0dd"]') 


: subSelector[0].xpath('.//td[2]/text()').extract() [0] 
: u'l11.155.124.70' 


: subSelector[0].xpath('.//td[3]/text()').extract() [0] 
: u'8gi23' 


: subSelector[0].xpath('.//td[4]/a/text()').extract() [0] 
: u'\u5317\u4eac' 


: subSelector[0].xpath('.//td[5]/text()').extract() [0] 
: u'\u9ad8\u533£' 


: subSelector[0].xpath('.//td[6]/text()').extract() [0] 
: u'HTTP' 


5-45 xiciSpider 测试 选择 器 
现在 xiciSpiderpy 怎么 编写 已 经 一 目 了 然 了 。xiciSpider.py 的 内 容 如 下 : 
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回 到 项 目 getProxy 目录 下 ， 执 行 命 令 : 


执行 结果 如 图 5-46 所 示 。 


#58 Scrapy 爬虫 框架 


2016-07-31 22:04:42+0800 [xiciSpider] INFO: Dumping Scrapy stats: 
{'downloader/request_bytes': 36972, 
‘downloader/request_count': 80, 
*"downloader/request_method count/GET': 80, 
*downloader/response_bytes': 649788, 
*downloader/response count': 80, 
‘downloader/response_status_count/200': 80, 
‘finish _reason': 'finished', 
‘finish time': datetime.datetime(2016, 7, 31, 14, 4, 42, 977442), 
'item scraped count': 8000, 
‘log _count/DEBUG': 8082, 
‘log count/INFO': 8, 
‘response received count’: 80, 
"*scheduler/dequeued': 80, 
"scheduler/dequeued/memory': 80, 
*scheduler/enqueued': 80, 
"*scheduler/enqueued/memory': 80, 
start_time’: datetime.datetime(2016, 7, 31, 14, 3, 20, 377657)} 
2016-07-31 22:04:42+0800 [xiciSpider] INFO: Spider closed (finished) 
king@debian: ~/code/crawler/scrapyProject/getProxy$ 1s 
getProxy scrapy.cfg proxy.txt 
IncG@debi an: ~/code/crawler/scrapyProject/getProxy$ wc -1 proxy.txt 


king@debian:~/code/crawler/scrapyProject/getProxy$s 0 


5-46 scrapy crawl xiciSpider 


—_ 


ERR icidaiticom 由 一 IP， 短 时 间 内 频繁 让 到， 超过 一 定 次 数 就 会 被 寺 锁 由。 万 一 被 封锁 


了 ， 那 就 重启 路 由 器 或 者 光 猫 换个 全 吧 。 


从 文件 保存 的 记录 数字 来 看 ， 应 该 是 没 问 题 的 。 但 这 么 多 的 记录 ， 或 者 说 这 么 多 的 代理 
服务 占有 多 少 是 可 用 的 呢 ? 这 束 是 下 一 小 节 的 问题 了 。 


5.5.4 ”处 理 Spider 数据 


如 何 来 验证 上 一 小 节 中 已 经 获取 到 的 代理 服务 器 地 址 ， 最 简单 的 方法 当然 是 在 pipelines 
文件 里 直接 修改 。 但 不 幸 的 是 验证 一 个 代理 服务 器 是 否 有 效 所 需 的 时 间 和 将 一 行 记录 写 入 文 
件 的 时 间 相 差 得 太 远 了 。 前 者 所 需 的 时 间 是 以 秒 计 算 的 ， 后 者 是 以 微 秒 计算 。 这 样 一 来 还 不 
如 先 将 所 有 的 代理 服务 器 保存 到 文件 ， 然 后 另外 写 一 个 Python 程序 来 验证 代理 。 

进入 getProxy 项 目的 目录 下 ， 创 建 Python 验证 程序 。 执 行 命令 : 


代理 服务 器 验证 程序 testProxy.py 的 内 容 如 下 : 
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执行 命令 : 
| python testPromy-py 


利用 多 线程 来 验证 来 源 文件 proxy.txt 里 的 代理 。 经 过 验证 ， 有 181 个 代理 可 以 使 用 。 将 
self.threads 设置 为 10， 使 用 10 个 进程 并 发 ， 大 概 需 要 1 分 钟 左右 ， 速 度 还 可 以 接受 。 这 个 
速度 已 经 很 快 了 ， 没 有 必要 将 selfthreads 设置 得 太 大 ， 以 免 占用 太 多 的 系统 资源 。 最 终 得 到 
文件 alive.txt。 这 个 程序 还 比较 简陋 ， 有 很 大 的 改进 空间 。 例 如 ， 同 一 网 站 下 怜 取 的 代理 服务 
器 也 许 不 会 有 重复 的 情况 ， 但 多 个 网 站 故 取 的 代理 服务 器 就 有 可 能 重复 。 这 种 情况 可 以 在 程 
序 内 加 上 一 个 去 重复 的 函数 。 


D.O Scrapy MRSCARPY : 粮 事 百科 


上 节 中 得 到 了 一 个 经 过 验证 的 proxy 文件 。 本 节 将 使 用 得 到 的 代理 来 仆 取 网 站 内 容 ， 目 
PRA BLE AI ASR PARSE A BE 


5.6.1 目标 分 析 

粮 事 百科 这 个 站 点 类 似 于 上 节 的 “ 西 刺 代 理 ”。 它 必须 要 指定 一 个 浏览 器 的 headers A 
能 返回 正确 的 数据 。 男 外 上 节 中 的 getProxy 项 目 中 己 经 获取 了 一 些 可 使 用 的 代理 服务 器 ， 浪 
费 是 可 耻 的 。 本 节 将 使 用 代理 来 息 取 燥 事 百科 中 的 笑话 。 

FED as PST IPRS Bk, QA 5-47 所 示 。 
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A www.qiushibaike.com/hot/page/3/?s=4900120 


刚才 在 公园 看 到 了 和 苑 孙 俩 ， 孙 子 走 在 节 和 他 前面， 小 孩子 喝 充 手 里 的 饮料 直接 把 犯 子 磁 
到 了 路 上 ， 后 面 的 节 节 捡 起 瓶子 对 孩子 严厉 的 说 “你 怎么 能 这 样 ， 老 师 没 教 你 要 保护 
环境 路 ! 记 着 点 以 后 不 许 在 往 马 路 上 随便 扔 垃圾 了 ! "说 完 随手 把 瓶子 扔 到 了 草丛 里 。 


3476 好 笑 - 35 评 论 
EE eee 


5-47 ”数据 来 源 站 点 


从 图 5-47 中 可 以 看 出 目标 数据 来 源 的 网 址 为 http://www.qiushibaike.com/hot/page/3/?s= 
4900120， 这 里 的 ?s=4900120 应 该 只 是 从 Cookies 里 提取 的 用 户 标识 。 去 除 这 个 尾巴 ， 用 浏览 
器 打开 http://www.qiushibaike.com/hot/page/3/。 页 面 完全 一 样 ， 没 有 任何 影响 。 

可 以 获取 的 项 有 发 布 者 名 字 、 笑 话 内 容 、 笑 话 图 片 〈 如 果 有 图 片 就 下 载 ) 、 单 击 好 笑 的 
次 数 、 谈 论 的 次 数 。items.py 就 是 这 些 了 。 


5.6.2 创建 编辑 Scrapy ER 
进入 Scrapy 的 工作 目录 ， 创 建 项 目 名 为 qiushi 的 Scrapy 项 目 ， 通 过 Spider 模版 创建 
qiushiSpider.py 文件 。 执 行 命令 : 


痛 先 要 编辑 的 还 是 items.py，items.py 文件 的 内 容 如 下 : 
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不 管 后 面 怎么 变化 ， 需 要 添加 什么 功能 ， 在 items.py 这 个 文件 上 是 没有 任何 区 别 的 。 在 
上 节 的 getProxy 项 目 中 ， 为 了 获取 “ 西 刺 代理 ”站 点 上 的 代理 服务 器 ， 在 settings.py 中 添加 
了 USER AGENT 项 ， 给 Scrapy 添加 了 一 个 浏览 器 的 headers。 本 节 的 Scrapy 项 目 不 仅 需要 
添加 浏览 器 的 headers， 还 要 使 用 proxy， 这 就 涉及 了 Scrapy 中 间 件 。 

Scrapy 项 目 本 身 有 很 多 的 中 间 件 。 这 些 中 间 件 设置 了 很 多 的 环境 。 一 般 最 常见 的 中 间 件 
就 是 下 载 器 中 间 件 。 本 节 项 目 所 需 添加 headers， 使 用 proxy 都 是 在 这 个 中 间 件 中 修改 。 


5.6.3 Scrapy 项 目 中 间 件 一 一 添加 headers 


在 Scrapy WHFP, ŽE proxy 的 中 间 件 是 scrapy.contrib.downloadermiddleware.useragent. 
UserAgentMiddleware。 直 接 修改 这 个 中 间 件 ， 不 是 不 可 以 ， 不 过 为 了 一 个 项 目 就 去 修改 整个 
环 声 变 量 ， 也 太 小 题 大 做 了 。 我 们 完全 可 以 目 己 写 个 中 间 件 ， 让 它 运 行 ， 然 后 将 Scrapy 默认 
的 中 间 件 关闭 掉 就 可 以 了 。 

先进 入 qiushi 项 目下 的 settgings.py 同 层 目录 ， 创 建文 件 夹 middlewares， 在 middlewares 
目录 下 创建 init .py 和 customMiddlewares.py 文件 ， 其 中 init .py 的 作用 是 将 整个 
middlewares 目录 当成 一 个 模块 使 用 。customMiddlewares.py 就 是 和 目 定义 的 中 间 件 。 
customMiddlewares.py 的 内 容 如 下 : 
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修改 settings.py， 将 系统 默认 的 中 间 件 scrapy.contrib.downloadermiddleware.useragent. 
UserAgentMiddleware 关闭 ， 用 目 己 创建 的 中 间 件 qiushi.middlewares.customMiddlewares. 
CustomUserA gent 代 奉 。Settings.py 内 容 如 下 : 


因为 改 用 了 自 定义 的 中 间 件 取代 Scrapy 的 中 间 件 ， 所 以 需要 将 Scrapy 的 中 间 件 改 为 
None， 将 其 关闭 。 
编辑 pipelines.py 文件 ，pipelines.py 文件 内 容 如 下 : 


#58 Scrapy 爬虫 框架 


最 后 将 QiushiPipeline 添加 到 settings.py PA, AMM settings py 内 容 如 下 : 
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所 有 文件 准备 完毕 了 ， 回 到 qiushi 项 目下 ， 执 行 命令 : 


结果 如 图 5-48 所 示 。 


{'downloader/request bytes': 30250, 
*downloader/request_count': 65, 
*downloader/request_method count/GET': 65, 
"downloader/response bytes": 342865, 
*downloader/response_ count’: 65, 
*downloader/response_status_count/200': 22, 
*downloader/response_status_count/301': 1, 
*downloader/response_status_count/503': 42, 
*finish_reason': ‘finished', 
*finish_time': datetime.datetime(2016, 8, 1, 9, 6, 20, 316252), 
*‘item_scraped count': 363, 
"log _count/DEBUG': 446, 
*log_count/ERROR': 77, 
‘log count/INFO': 7, 
‘response received count’: 30, 
" scheduler/dequeued': 65, 
*scheduler/dequeuved/memory': 65, 
"*scheduler/enqueued': 65, 
*scheduler/enqueued/memory': 65, 
"start_time': datetime.datetime(2016, 8, 1, 9, 5, 59, 392965)} 
SA 01 17: 06: 20+0800 [qiushiSpider] INFO: Spider closed (finished) 
r/scrapyProject/qiushi$ 13 


aod iubai.txt IMG § qiushi scrapy.cfc 


ode/crawler/scrapyProject/qiushi$ 0 


5-48 数据 保存 结果 
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从 最 后 运行 结果 看 来 ， 已 达到 预期 目标 ， 获 取 了 数据 。 目 定义 的 中 间 件 成 功 运行 。 


5.6.4 Scrapy 项 目 中 间 件 一 一 添加 proxy 


上 一 小 节 中 使 用 自 定 义 的 中 间 件 给 Scrapy 添加 了 浏览 器 的 headers。 本 小 节 将 使 用 上 自 定 
义 的 中 间 件 给 Scrapy 添加 一 个 proxy。 

Scrapy 默认 环境 下 ，proxy 的 设置 是 由 中 间 件 scrapy.contrib.downloadermiddleware. 
httpproxy.HttpProxyMiddleware 控制 的 。 参 照 上 一 小 节 的 方法 ， 还 是 自 定 义 一 个 中 间 件 。 因 为 
只 使 用 单独 一 个 代理 ， 就 不 再 添加 新 的 文件 了 。 直 接 在 middlewares.customMiddlewares 中 添 
加 一 个 类 就 可 以 了 。 

既然 是 使 用 proxy， 那 得 先 找到 一 个 可 使 用 proxy， 在 上 个 Scrapy WMH getProxy 中 已 经 
找到 很 多 了 ， 我 们 在 getProxy 项 目的 最 终 文 档 usefulProxy.txt 中 随意 挑选 一 个 即 可 。 例 如 : 
114.33.202.73:8118. 

修改 自 定 义 的 中 间 件 文档 customMiddlewares.py。 修 改 完毕 后 的 customMiddlewares.py 内 
容 如 下 : 


接 下 来 再 修改 settingspy 文件 ， 将 新 添加 的 中 间 件 CustomProxy 添加 到 
DOWNLOADER_MIDDLEWARES 中 去 。 这 里 与 之 前 的 CustomUserAgent 不 同 的 是 ， 
CustomUserAgent 需要 禁止 系统 的 UserAgentMiddleware， 而 CustomProxy 则 需要 在 系统 的 
HttpProxyMiddleware 之 前 执行 。 修 改 完毕 的 settings.py 内 容 如 下 : 
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最 后 回 到 Scrapy 项 目 qiushi 的 目录 下 ， 执 行 命令 : 
scrapy crawl qiushispider —— 
执行 的 结果 如 图 5-49 所 示 。 


#5 Scrapy Mente 


|king@debian:~/code/crawler/scrapyProject/qiushi$ scrapy crawl qiushiSpider 
2016-08-01 22:57:01+0800 [scrappy] INFO: Scrapy 0.24.2 started (bot: qiushi) 
2016-08-01 22:57:01+0800 [scrapy] INFO: Optional features available: ssl, httpii 
, boto, django 
2016-08-01 22:57:01+0800 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE' 
: "qiushi.spiders', "SPIDER MODULES': ['qiushi.spiders'], 'BOT_NAME': 'qiushi'} 
2016-08-01 22:57:01+0800 [scrapy] INFO: Enabled extensions: LogStats, TelnetCons 
Ole, CloseSpider, WebService, CoreStats, SpiderState 
2016-08-01 22:57:02+0800 [scrapy] INFO: Enabled downloader middlewares: CustomPr 
oxy, CustomUserAgent, HttpAuthMiddleware, DownloadTimeoutMiddleware, Retrynaddie 
are, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware 


re 


| RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderSst 
ats 
2016-08-01 22:57:02+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid 
Gleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddlew 


are 
2016-08-01 22:57:02+0800 [Scrapy] INFO: Enabled item pipelines: QiushiPipeline 
2016-08-01 22:57:02+0800 [qiushiSpider] INFO: Spider opened 

2016-08-01 22:57:02+0800 [qiushiSpider] INFO: Crawled 0 pages (at 0 pages/min), 
scraped 0 items (at 0 items/min) 

2016-08-01 22:57:02+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 
023 

2016-08-01 22:57:02+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
“C2016-08-01 22:57:04+0800 [scrappy] INFO: Received SIGINT, shutting down gracefu v 


5-49 运行 中 间 件 
从 图 5-49 中 可 以 看 出 目 定 义 的 两 个 中 间 件 都 已 经 运行 了 。 


5.7 sera py MBSA : MEEKS 


WT RAP is, MMe Se A, En AA ES ER A AE 
县。 可 对 于 网 站 而 言 ， 网 络 爬 虫 占 用 了 太 多 的 资源 ， 也 没 可 能 从 这 些 爬 虫 获取 点 击 量 ， 增 加 
广告 收入 。 据 有 关 调 查 研究 证 明 ， 网 络 上 超过 60% 以 上 的 访问 量 都 是 爬虫 造成 的 ， 也 难怪 网 
站 方 对 网 络 爬 虫 恨 之 入 骨 ，“ 杀 ”之 而 后 快 了 。 

网 站 方 采 取 种 种 措施 拒绝 网 络 爬 虫 的 访问 ， 而 网 络 高 手 们 则 曲 不 示弱 ， 改 进 网 络 爬 虫 ， 
赋予 它 更 强 的 功能 、 更 快 的 速度 ， 以 及 更 隐蔽 的 手段 。 在 这 场 息 虫 与 反扑 虫 的 战争 中 ， 双 方 
的 比分 交 蔡 领先 ， 最 终 谁 会 局 得 胜利 ， 大 家 将 拭 目 以 符 。 


5.7.1 创建 一 般 爬 虫 


我 们 先 写 一 个 小 朴 虫 程序 ， 假 设 网 站 方 的 各 种 限制 ， 然 后 再 来 看 看 如 何 破解 网 站 方 的 限 
制 ， 让 大 家 目 由 地 使 用 爬虫 工具 。 网 站 限制 的 朴 虫 肯定 不 包括 我 们 这 种 只 有 几 次 访问 的 疏 
虫 。 一 般 来 说 ， 小 于 100 次 访问 的 爬虫 都 无 须 为 此 担心 ， 这 个 的 爬虫 纯粹 是 做 演示 。 

DAG HY Se UG Ba eA Bil, EH Scrapy MERKER w E AY Se aI, SR VER E 
http://www.meijutt.com/new100.html. HEA Scrapy 工作 目录 ， 创 建 meiju100 项 目 。 执 行 命令 : 
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执行 的 结果 如 图 5-50 所 示 。 


You can start your first spider with: 
cd meijui00 
scrapy genspider example example.com 
king@debian:~/code/crawler/scrapyProject$ cd meijui00 
king@debian: ~/code/crawler/scrapyProject/meijul00$ scrapy genspider meijui00Spid 
er meijutt.com 
Created spider 'meijul00Spider' using template ‘basic’ in module: 
meijul00.spiders.meijul00Spider 
king@debian: ~/code/crawler/scrapyProject/meijui00O$ tree ./meijui00/ 
-/meiju100/ 
init__.py 
__init__.pyc 
items.py 
pipelines.py 
settings.py 
settings.pyc 
spiders 
_init .py 
_init .pyc 
meijui00Spider.py 


1 directory, 9 files 
king@debian:~/code/crawler/scrapyProject/meijuid0os | 


5-50 tree meiju100 项 目 


修改 后 的 items.py 的 内 容 如 下 : 


修改 后 的 meijul 00Spider.py 内 容 如 下 : 
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修改 后 的 pipelines.py AAW F: 


Python MERKA ) 


修改 后 的 settings.py AAW F: 


这 个 美剧 爬虫 已 经 修改 完毕 了 。 回 到 meiju 项 目的 主 目录 下 执行 命令 : 


执行 结果 如 图 5-51 所 示 。 
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=5 ABC-Family 2016-7-27 
unknow 2016-7-27 

unknow 2016-7-27 

CBS 2016-7-27 

IFC 2016-7-27 

Netflix 2016-7-27 
My-Lifetime 2016-7-27 


BBC 2016-7-27 
TBS 2016-7-27 
unknow 2016-7-27 
2016-7-27 
2016-7-27 
ABC 2016-7-27 
unknow 2016-7-26 
2016-7-26 
unknow 2016-7-26 
CW 2016-7-26 
2016-7-26 
Disney 2016-7-26 
unknow 2016-7-26 
if 2016-7-25 
2016-7-25 
2016-7-25 
kingêdebian:~/code/crawler/scrapyProject/meiju100$ [] 
Pe = 


5-51 meiju 项 目 结果 
项 目 运 行 成 功 。 下 面 来 测试 反扑 忠 和 反 反 扑 虫 技术 。 


5.7.2 ”封锁 间隔 时 间 破 解 

Scrapy 在 两 次 请 求 之 间 的 时 间 设 置 是 DOWNLOAD DELAY. WRAY FEM A A 
素 ， 这 个 值 当然 是 越 小 越 好 。 如 果 把 DOWNLOAD DELAY 设置 成 了 0.1， 也 就 是 每 0.1 秒 
癌 网 站 请 求 一 次 网 页 。 网 站 管理 员 只 要 不 睹 ， 稍 微 过 滤 一 下 日 志 ， 就 会 为 用 户 如 此 侮辱 他 的 
智商 而 愤恨 不 已 。 

WRT NE BN SE RAG RAAB et, BPA “FTN AEE, TAT HEN”, 那 还 是 把 这 一 
项 的 值 设 置 得 稍微 大 一 点 吧 。 在 settings.py 的 尾部 追加 这 一 项 即 可 。 


DOWNLOAD DELAY = 5 


5.7.3 封锁 Cookies 破解 

众所周知 ， 网 站 是 通过 Cookies 来 确定 用 户 身 份 的 。Scrapy ME REER Bia MEH a] — 
个 Cookies 发 送 请 求 。 这 种 做 法 和 把 DOWNLOAD DELAY 设置 成 0.1 没什么 区 别 。 

不 过 要 破解 这 种 原理 的 反扑 虫 也 很 简 单 ， 直 接 禁 用 Cookies 就 可 以 了 。 在 settings.py 的 
尾部 仍 加 一 项 即 可 。 

COOKIES ENABLED = False 


5.7.4 封锁 user-agent 破解 


user-agent 是 浏 贤 右 的 映 份 标识 。 网 站 束 是 通过 user-agent KAGE MI AARON. ARS 
的 网 站 都 会 拒绝 不 符合 一 定 标准 的 user-agent 请 求 网 页 。 在 前 面 的 Scrapy 项 目 中 曾 冒 充 浏览 
器 访问 网 站 。 但 如 果 网 站 将 频繁 访问 网 站 的 user-agent 作为 息 虫 的 标志 ， 然 后 将 其 拉 入 黑 名 
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单 又 该 怎么 办 呢 ? 

这 个 也 很 简单 。 可 以 准备 一 大 堆 的 user-agent， 然 后 随机 挑选 一 个 使 用 ， 使 用 一 次 就 更 
换 ， 这 样 不 就 解决 了 。 

首先 还 是 在 meiju 项 目下 settings.py 的 同 级 目录 创建 middlewares 目录 ， 进 入 
middlewares 目录 ,创建 init .py， 将 middlewares 目录 变 成 一 个 Python 模块 。 创 建 资源 文 
件 resource.py 和 中 间 件 文件 customUserAgent.py。 

将 多 个 浏览 器 的 user-agent 放 入 资源 文件 resource.py 中 加 入 列表 竺 用 。 修 改 后 的 
resource.py 文件 内 容 如 下 : 
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修改 customUserAgentpy， 将 资源 文件 中 的 user-agent 随机 选择 一 个 出 来 ， 作 为 Scrapy 
的 user-agent。 修 改 后 的 customUserAgent.py 内 容 如 下 : 


最 后 修改 settings.py 文件 ， 将 RandomUserAgent 加 入 DOWNLOADER MIDDLEWARES 
项 中 。 修 改 后 的 settings.py 文件 内 容 如 下 : 
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修改 到 这 一 步 ， 使 用 Scrapy 会 随机 调用 一 个 user-agent， 稍 微小 心 一 点 ，Scrapy 再 也 不 
会 因为 user-agent 而 被 网 站 拒绝 服务 了 。 


5.7.5 ”封锁 IP 破解 

在 反 有 息 虫 中 ， 最 容易 被 发 觉 的 实际 上 是 IP。 同 一 IP 短 时 间 内 访问 同一 站 点 ， 如 果 数 目 
少 ， 管 理 员 可 能 会 以 为 是 网 吧 或 者 大 型 的 局 域 网 在 访问 而 放 你 一 马 。 数 目 多 了 ， 那 肯定 是 的 
虫 了 。 个 人 用 户 可 以 用 重启 猫 的 方法 换 了 P， 专 线 用 户 总 不 能 让 ISP 给 换 专线 吧 ， 因 此 最 方便 
的 方法 就 是 使 用 代理 了 。 

之 前 的 项 目 中 曾 使 用 过 代理 息 取 网 站 ， 本 节 将 准备 一 个 代理 池 ， 从 中 随机 地 选取 一 个 代 
理 使 用 。 疏 取 一 次 ， 选 取 一 个 不 同 的 代理 。 进 入 之 前 创建 的 middlewares 目录 中 ， 在 资源 文 
件 resource.py 中 加 入 一 个 IP 池 ， 也 就 是 一 个 代理 服务 占 的 列表 。 在 前 和 面 的 项 目 中 己 经 获取 
很 多 免费 的 代理 服务 器 了 ， 请 随意 取 用 ， 不 用 客气 。 

修改 后 的 resource.py 的 内 容 如 下 : 


#58 Scrapy EHHE 


创建 一 个 中 间 件 customProxy.py。 这 个 中 间 件 的 作用 就 是 让 Scrapy MERA ik IN BAL EA 
IP 池 中 的 代理 。 修 改 后 的 customProxy.py 的 内 容 如 下 : 


Python WAEREA j 


最 后 还 是 修改 settings.py 文件 ， 将 customProxy 加 入 到 DOWNLOADER MIDDLEWARES 
项 中 。 修 改 后 的 settings.py 文件 内 容 如 下 : 


修改 完毕 后 ，Scrapy 就 可 以 随机 地 使 用 IP 池 中 的 代理 了 。 执 行 命 令 scrapy crawl 
meijul00Spider 获取 最 新 的 美剧 。 
回 到 项 目 meiju100 的 主 目 录 下 ， 使 用 tree 命令 得 看 meiju100 项 目的 文件 ， 如 图 5-52 Aras. 
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20160802meiju.txt 


customProxy.py 
customProxy.pyc 
customUserAgent.py 
customUserAgent.pyc 


resource .DY 

resource.pyc 
Ppipelines.py 
pipelines.pyc 
settings.py 
settings.pyc 
spiders 


init__.py 
_ init .pyc 
meijul00Spider.py 


meijui00Spider.pyc 
scrapy.cfg 


3 directories, 22 files 
Mingedebian:~/code/crawler/scrapyProject/meiju100$ | _ 


5-52 tree meijul00 


SK Bs MG BR Fy Haze ANE HE, RANE TS A ERE H T SACP ak 
FEJ WR ERETTE 7D BK 


5.3 ahg 


本 章 详 细 介 绍 了 Scrapy MES HEAE IS TEHY, HD EER S Scrapy MERER 4 H AE 
Re, FP a Me PIE, RAA Scrapy 中 间 件 的 使 用 方法 。 从 使 用 的 难度 
来 说 ，Scrapy 可 以 算得 上 最 简单 的 朴 虫 了 ， 人 徇 单 到 只 需 做 填空 题 就 能 得 到 数据 ， 而 且 对 于 特 
殊 爬 虫 的 特殊 要 求 也 能 很 好 文 持 。 
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上 一 章节 讲解 了 Python MY MEH HEAE Scrapy。 本 章 将 详细 讲解 男 一 个 Python ME 
Beautiful Soup. 45 Scrapy 不 同 的 是 Beautiful Soup 并 不 是 一 个 框架 ， 而 是 一 个 模块 。 因 此 ， 
Beautiful Soup 不 能 再 做 填 衬 题 了 ， 只 能 从 头 到 尾 的 写作 文 了 。 

Beautiful Soup 最 新 版 本 是 4.4.0， 一 般 被 侧 称 为 bs4。bs 仅 文 持 Python 2.7， 如 果 想 使 用 
Python 3.0 版 本 的 Beautiful Soup， 那 就 只 能 使 用 Beautiful Soup 3 了 。Bs4 在 网 上 的 教程 不 
多 ， 好 不 容易 找到 几 个 ， 内 容 还 都 是 重复 的 。 这 里 主要 是 参考 bs4 的 官网 教程 ， 官 网 网 址 为 
http://beautifulsoup.readthedocs.io/zh_CN/latest/。 实 际 上 它 也 没什么 很 难 的 地 方 ， 与 Scrapy 相 
比 ， 除 了 选择 过 滤 有 所 不 同 外 ， 就 是 一 普通 的 Python 程序 。 


6. 1 女装 Beautiful Soup 环境 


bs4 并 不 是 软件 ， 它 只 是 一 个 第 三 方 的 模块 。 既 然 是 模块 ， 那 安装 起 来 就 比较 简单 了 。 
前 面 说 的 pip、ease install 都 可 以 (推荐 使 用 pip) 。 


6.1.1 Windows 下 安装 Beautiful Soup 


在 Windows 下 安装 Bearutiful Soup 最 简单 的 方法 还 是 使 用 pip 安装 。 打 开 cmd.exe， 执 
行 命令 : 


执行 结果 如 图 6-1 所 示 。 


#68 Beautiful Soup MH 


:Weere\king>pip install hed 
SS 
ollecting bs4 


Downloading be4-8.G.1.tar.gz 

ollecting beautifulsoup4 ‘(fron bs4> 

Downloading beautifulsoup4—4.5.1—-—py2-none-any.whl <83kB> 
43% i 1 36kB 23kB/s eta 6:88:43 
48x I ! 4ØkB 25kB/s cta 0:00: 
53% ! t 45kB 25kB/s eta 日 :8 
58x | ! 49kB 2SkB/s cta @: 
63% i ! 53kB 25kB/s eta 
68% i | S?kKB 32kBr-s eta 
73% i | 61kB 32kB/s e 
?ex i i 65kB 32kB/s 
B2x | | 69kB 32kB/ 
B?x i i ?3kB 64kB 
927 i | 77kB 64 
27% i i 81kB 
100z ! W: ser 

57KB/s 

nstalling collected packages: heautifulsoup4, hs4 

Running setup.py install for hs4 

uccesefully installed heautifulcoup4-4.5.1 bs4-@.8.1 

ou are using pip version 7.1.2, however version 8.1.2 is available. 

ou should concider upgrading via the python -m pip install —-upgrade pip’ comn 

nd. z 


图 6-1 Windows 安装 bs4 


bs4 已 安装 到 Windows 中 ， 可 以 直接 使 用 了 。 


6.1.2 Linux 下 安装 Beautiful Soup 


Linux 中 安装 还 是 舍 助 于 Debian 的 数据 库 ， 以 便于 管理 。 在 终端 中 以 root 用 户 〈 如 果 普 
通用 户 有 权限 ， 也 可 以 使 用 sudo 命令 安装 ) 执行 命令 : 


apt-get install python-bs4 


执行 结果 如 图 6-2 所 示 。 


zoDotedecbizneBl/ 人 apt- get install python- b34 
EERAK E . 
eset SR RM 


ZEURE 7 
下 列 【新 ] 软 Fa 将 被 安装 ; 
python-bs4 


oo 0 个 软件 包 ， 新 安装 了 1 TRA. RMR o 个 软件 包 ， 有 96 个 软件 包 未 被 升 


SATR 0 B/77.7 kB 的 软件 包 . 
eerie ese eis 348 kB JTS Z E. 
Se python-bs¢ 
ERA .系统 当前 共 安 装 有 157310 个 文件 和 目录 。) 


PY certian bs4 4.3.2-2 all.deb ... 


6-2 Linux 安装 bs4 


基于 Debian 一 贯 的 保守 策略 ，apt-get 安装 的 并 不 是 最 新 版 本 ， 而 是 目前 最 稳定 的 版 本 
4.3.2. 


6.1.3 ”最 强大 的 IDE——Eclipse 


Python 环境 下 有 很 多 优秀 的 IDE， 如 Eclipse. Komodo, Sublime, Pycharm, vim, 
Emacs $, HF vim 和 Emacs 虽然 是 跨 平 台 的 ， 但 配置 复 洒 ， 而 且 界 面 也 比较 简陋 ， 不 符合 
美学 原则 。Pycharm、Komodo 在 编译 Python 时 还 不 错 。 但 笔者 更 希望 使 用 一 款 能 包 打 天 下 
的 兼容 所 有 语言 的 IDE, mW Eclipse 不 负 众 望 ， 大 而 全 配合 插件 后 无 所 不 包 ， 无 须 安装 到 系 
统 ， 可 直接 使 用 。 最 重要 的 是 Eclipse 免费 啊 ， 让 人 既 没 有 使 用 盗版 的 负 次 感 ， 也 能 安然 享受 
全 部 的 服务 。Eclipse 是 路 平台 的 IDE， 能 在 所 有 系统 下 运行 。 本 草 中 所 有 的 程序 如 不 特殊 注 
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明 都 将 在 Windows 下 运行 。 
1 . 安装 Eclipse 


打开 Eclipse 的 官网 下 载 页 面 http://www.eclipse.org/downloads/， 直 接 单 击 下 载 按钮 ， 如 图 
6-3 HIZR o 


GETTING STARTED MEMBERS PROJECTS MORE ~ 


Download Eclipse Technology that is 
right for you 


ad OrI@N 
Get Eclipse a Eclipse Che 


Install your favorite Eclipse packages. Eclipse Che is a developer A modern, open source 


workspace server and software development 
DOWNLOAD 64 BIT cloud IDE. environment that runs in 


the cloud. 


6-3 ”官网 下 载 Eclipse 


网 站 会 根据 访问 站 点 的 系统 (从 访问 者 的 headers 就 可 以 得 出 操作 系统 ) 推荐 安装 程 
序 。 本 次 下 载 网 站 推荐 的 是 eclipse-inst-win64.exe《〈 六 面 说 过 Eclipse 无 须 安装 ， 是 绿色 程序 
并 非 笔 误 。 这 个 所 谓 的 安装 程序 基本 就 是 个 解压 缩 文件 ) 。 左 键 双击 安装 程序 ， 要 求 选 择 
Eclipse 的 版 本 ， 如 图 6-4 所 示 。 


eclipseinstaller soo» 
type filter text 


Eclipse IDE for Java Developers 


The essential tools for any Java developer, induding a java IDE, a Git client, XML 
Editor, Mylyn, Maven and Gradle integration 


Eclipse IDE for Java EE Developers 


Tools for Java developers creating Java EE and Web applications, inducing a Java 
IDE, tools for Java EE, JPA JSF, Mylyn, EGit and others. 


Eclipse IDE for C/C++ Developers 


An IDE for C/C++ developers with Mytyn integration. 


Eclipse IDE for JavaScript and Web Developers 


The essential tools for any JavaScript developer, including JavaScript language 
support, Git client, Mylyn and editors for JavaScript, HTML, CSS and XML. 


Eclipse IDE for PHP Developers 


The essential tools for any PHP developer, including PHP language support, Git 
client. Mylyn and editors for JavaScript, HTML, CSS and XML. 


6-4 选择 Eclipse 版 本 
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单 击 Eclipse IDE for java Developers 就 可 以 了 。 因 为 是 for java， 上 所 以 还 得 下 载 java 依赖 
包 。 如 果 网 速 给 力 ， 用 不 了 几 分 钟 就 可 以 下 载 完 毕 。 下 载 完 毕 后 ， 安 装 程 序 要 求 选择 安装 位 
置 ， 如 图 6-5 所 示 。 


eclipse! nsta | er by Oomph 


= Eclipse IDE for Eclipse Committers 


Package suited for development of Eclipse itself at Eclipse. 


Installation Folder § D:\Program Files\eclipse\committers-neon iS 


W@W create start menu entry 


~ create desktop shortcut 


6-5 选择 安装 位 置 


填 入 合适 的 安装 位 置 后 ， 单 击 INSTALL 按钮 ， 稍 待 片刻 Eclipse EATER. OETA 
上 的 Eclipse 图 标 运 行 Eclipse。 首 次 运行 时 会 提示 选择 工作 目录 ， 如 图 6-6 所 示 。 


| Select a directory as workspace 


| Eclipse uses the workspace directory to store its preferences and development artifacts. 


Workspace: §C:\Users\king\workspace ~ Browse... 


Use this as the default and do not ask again 


6-6 选择 工作 目录 
JAA Eclipse 的 工作 目录 ， 单 击 OK 按钮 ，Eclipse 界面 如 图 6-7 所 示 。 
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= b<40 roject - Java - Ed | 之 | 
File Edit Navigate Search Project Run Window Help 


K E Welcome 52 


ie aclina 


ES ew IDE figurati Overvie 
settings Get an overview of the features 


Review the IDE's most fiercely 
contested preferences 
Tutorials 
Go through tutorials 


\ + a new plug-in project 
te a new Eclipse Plug-in project 


Samples 
Try dut the samples 


gyo ut projects from Git 
ckout Eclipse projects hosted in a 


Git repository What's New 
Find out what is new 


Import existing projects 
Iffifort existing Eclipse projects from 
the filesystem or archive 


Lunch the Eclipse 

MSitketp ace 

Crikhancrn umir TNC with additiansl 
uw 


6-7 Eclipse 界面 


Eclipse 安装 完毕 ， 下 一 步 将 安装 Eclipse 的 Python 插件 Pydev. 


2 . 安装 Pydev 插件 
在 Eclipse 的 菜单 上 单 击 Help|Install New Software 选项 ， 如 图 6-8 所 示 。 


File Edit Navigate Search Project Run Window 
和 Welcome $ @ Welcome 


A (2?) Help Contents 
G GP Search 


Show Contextual Help 


Show Active Keybindings.… Ctrl+Shift+L 
Tips and Tricks... 
Cheat Sheets... 


Rawiew IDE configu 
E S ian the IDE's most fie Dy Perform Setup Task 一 一 一 一 一 
preferences iii 
%, Check for Updates 
| ‘et Install New Software... 
+A can N | I| ® Installation Details 
te a new Eclipse Plug @ Eclipse Marketplace 


© About Eclipse 


6-8 ”安装 Python 插件 


打开 了 Eclipse 的 插件 安装 界面 ， 单 击 Add 按钮 ， 加 入 Eclipse 的 Python 插件 Pydev 的 安 
装 源 ， 如 图 6-9 所 示 。 
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Available Software 


Select a site or enter the location of a site. 


Work with: type or select a site 


Find more software by working with the "Available Software Sites" preferences. 


‘type filter text 


Name Version 
OD There is no site selected, 
© Add Repository 


© Show only software applicable to target environment 
Contact all update sites during install to find required software 


6-9 ”设置 Pydev 安装 源 


设置 完毕 后 单 击 OK 按钮 ，Eclipse 将 显示 出 这 个 安装 源 中 所 有 的 可 用 插件 。 单 击 选中 
Pydev 插件 ， 单 击 Next 按钮 ， 开 始 安 装 Pydev， 如 图 6-10 Ara. 


= - Lo La | I” Oe 
Available Software 


Check the items that you wish to install. 


Work with: 9] Pydev - http://pydev.org/updates v 


Find more software by working with the "Available Software Sites" preferences. 


type filter text 


Nan Version 
4 100 pyDev 
网 4 PyDev for Eclipse $.1.2.201606231256 
T Ge PyDev for Eclipse Developer Resources 5.1.2.201606231256 


PyDev Mylyn Integration [optional 


| Select All | | Deselect All | 2 items selected 


Details 


Show only the latest versions of available software Hide items that are already installed 


[J| Group items by category What is already installed? 
[E] Show only software applicable to target environment 
Contact all update sites dunng install to find required software 


单 击 Next 按钮 ， 选 择 同 意 协 议 后 继续 单 击 Next 按钮 ， 直 到 Pydev 安装 完成 。 因 为 服务 
器 的 缘故 ， 这 个 安装 可 能 会 有 点 慢 。 不 用 看 急 ，Pydev 并 不 大 。 如 果实 在 没 耐 性 ， 也 可 以 用 
下 载 工具 将 Pydev 先 下 载 到 本 地 ， 离 线 安装 Pydev。 安 装 完毕 后 ， 按 照 提 示 重 启 Eclipse， 开 
始 配置 Pydev 插件 。Pydev 插件 只 需要 配置 Python 解释 器 的 位 置 就 可 以 使 用 了 ， 其 他 的 配置 
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可 根据 需要 目 行 调试 。 
在 Eclipse 菜单 栏 中 ， 单 击 Windows 菜单 ， 选 择 Preferences 选项 。 在 Preferences 对 话 框 
中 单 击 左 侧 的 pyDev， 选 择 Interpreter， 单 击 Python Interpreter 选项 ， 如 图 6-11 所 示 。 


Python interpreters (e.g; python.exe}, Double-click to rename. 


Name 


© Select interpreter 


Remove 


Enter the name and executable of your interpreter 
Up 


5 


own 
nables 


| New Folder | 
| New Egg/Zip(s) | 
| Remove | 


Eee 


6-11 选择 Python 解释 器 位 置 


单 击 New 按钮 ， 在 弹出 的 对 话 框 中 单 击 Browse 按钮 。 选 择 python.exe 的 路 径 ， 单 击 
OK 按钮 直到 Python 解释 占 导 入 完毕 。 一 般 来 说 ， 下 一 步 应 该 是 给 Eclipse 加 载 中 文 包 。 但 
Eclipse Neon 版 本 还 很 痢 ， 中 文 包 并 未 放出 ， 所 以 只 好 暂时 使 用 英文 版 本 的 。 如 果 非 要 中 文 
版 的 ， 那 只 能 重新 下 载 低 版 本 的 Eclipse T o 


3 . 创建 Python 项 目 


Eclipse 安装 配置 完毕 后 ， 开 始 创 建 Python 项 目 。 打 开 Eclipse, Mi h He # 
File[New|Project 项 ， 创 建 一 个 项 目 ， 如 图 6-12 Ara. 


= bs4Project - Java - E 
New Alt+ Shift+N » 
Open File... 


了 Open Projects from File System... Package 


Close Ctrl+W Class 


Close All Ctrl+Shift+W Interface 

Enum 

Annotation 
Source Folder 
Java Working Set 
Folder 

File 

Untitled Text File 
JUnit Test Case 
Task 


Save Ctrl+S 
Save As... 

Save All Ctrl+Shift+S 
Revert 


Move... 
Rename... 
] Refresh 


Convert Line Delimiters To 


a ODAMABERAQQQQAR 


Print... Ctrl+P Other 


图 6-12 Eclipse 创建 项 目 
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在 弹出 的 对 话 框 中 选择 区 项 目 类 型 。 这 里 应 该 选择 PyDev 项 目 中 的 PyDev Project Jil 
目 。 选 取 完 毕 后 ， 单 击 Next 按钮 继续 ， 如 图 6-13 所 示 。 


| Edit Source Re = 
z EEE New Project | A | | " 
CO clu: W: oe 一 ick Access | 对 | 图 
| Select a wizard ¢ 
Package Expl.. © 


see ~ O 


旧名 | 2 -|BE| | 


type filter text Find A PAIP Z 


> & Gradle 
> GB Java 
b E Plug-in Development 
a B PyDev 
团 PyDev Django Project == Outline 只 =° OF 


a 一 Dev 一 一 App Enaine Project E = 
av Proj B 
ere eat in outline is not 


ailable. 


图 6-13 ”选取 项 目 类 型 
在 弹出 的 对 话 框 中 输入 项 目 名 称 后 ， 单 击 Finish 按钮 ， 项 目 就 创建 完毕 了 ， 如 图 6-14 所 


PyDev Project 
Create a new PyDev Project. 


Project name: [= | 


Project contents: 
多 Use default 


Directory | E:\save\sync\code\crawler\bs4Project\helloPython | Browse 


Project type 
Choose the project type 
@ Python © Jython © IronPython 


Grammar Version 


27 
Interpreter 
Default 
Click here to configure an interpreter not listed. 
© Add project directory to the PYTHONPATH 
© Create 'src' folder and add it to the PYTHONPATH 
© Create links to existing sources (select them on the next page) 
© Don't configure PYTHONPATH (to be done manually later on) 
Working sets 


[F] Add project to working sets 


Working sets: 


@ 


图 6-14 Python 项 目 名 称 
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回 到 Eclipse 的 主 界面 下， 在 左 侧 将 出 现 刚 创建 的 Pydev WH helloPython. 41 tH 
helloPython 项 目 将 弹出 菜单 ， 选 择 New 选项 ， 弹 出 子 菜单 ， 如 图 6-15 所 示 。 


eee eee ee perenne Quick Acce 
H PyDev Package... X | T = 
a 


日 乞 | 如 了 | 


[9 File 
CS Folder 
( Linkto Existing Source 


®& Remove from Context Ctrl +Alt+Shift+Down 


图 6-15 Python 项 目 创建 文件 


如 果 是 创建 文件 和 文件 来 ， 正 常情 况 应 该 是 选择 File 和 Folder 选项 ， 但 笔者 更 喜欢 使 用 
PyDev Module 和 PyDev Package 选项 。 因 为 选择 File 会 创建 一 个 空 文件 ， 这 个 文件 里 什么 都 
没有 。 而 PyDev Module 选项 会 创建 一 个 根据 预 设 模版 CHK MH 
Windows|Preferences|PyDev|Editor|Templates 下 的 <Empty> 项 ) 创建 的 .py 文件 ， 无 须 在 每 次 创 
建文 件 时 再 重复 设置 。Folder 将 创建 一 个 衬 文 件 夹 ， 而 PyDev Package 将 创建 一 个 包含 
init__.py 的 文件 夹 〈 就 是 在 上 草 中 创建 的 中 间 件 文件 夹 middlewares) ， 可 以 将 这 个 文件 夹 
下 的 Python 文件 当成 模块 导入 到 项 目 中 。 

下 面 来 测试 一 下 ， 创 建 一 个 PyDev Module， 名 为 hello.py， 创 建 一 个 PyDev Package 名 
为 testModule， 并 在 testModule 中 创建 一 个 PyDev Module， 名 为 myModule。 创 建 完 毕 后 的 
目录 结构 如 图 6-16 所 示 。 


File Edit Source Refactoring 
ee 


> @ Divrogram Files\python 
图 6-16 目录 结构 
【示例 6-1】 其 中 ，hello.py 的 内 容 如 下 : 
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testModule/myModule.py 的 内 容 如 下 : 


单 击 Eclipse 的 Run 菜单 ， 选 取 Run 选项 (Ctrl + Fl11)， 或 者 直接 单 击 工具 栏 的 Run 按 


钮 ， 执 行 结果 如 图 6-17 所 示 。 


6-17 选取 Python 解释 器 
选择 Python Run 后 单 击 OK 按钮 。 运 行程 序 ， 运 行 结果 如 图 6-18 所 示 。 
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File Edit Source Refactoring Navigate Search Project Pydev Run Window Help 


an Ès 


J> 


Ja yl Wl Oey Ov AEE Quick Access |:| 6 | # E 


H PyDev Package.. 2 中 日 By hello % | [A testModule [P] myModule 一 E 


BS|> y #1 /Ws Wh, BLES 
4 [二 helloPython Hory a 
Created on 2016¢668+s6 4 


4 由 testModule 
_init_.py 
> [P] myModule.py 


> [P] hello.py 
> @ D:\Program Files\python from testModule.myModule import showMe 
18 


@author: hstking hstkingShetmail.com 


} 


a Xx %Q a) ReO va- 072o 


Rumia helloPython\hello.py 


Writable | Insert | 2:23 


6-18 ”运行 Python 程序 


运行 无 误 ，Eclipse 测试 完毕 。 选 择 Eclipse 做 IDE 除了 它 跨 平台 、 支 持 语言 丰富 外 ， 还 
因为 Eclipse 有 者 强大 的 调试 功能 。 在 后 面 的 实例 中 会 演示 Eclipse Debug 调试 的 强大 方便 之 
处 。 


6 o 2 BeautifulSoup 解析 器 


与 Scrapy 相 比 ，bs4 中 间 多 了 一 道 解析 的 过 程 〈Scrapy 是 URL 返回 什么 数据 ， 程 序 就 接 
受 什么 数据 进行 过 滤 ) 。bs4 则 在 接收 数据 和 进行 过 滤 之 间 多 了 一 个 解析 的 过 程 。 根 据 解 析 
器 的 不 同 ， 最 终 处 理 的 数据 也 有 所 不 同 。 加 上 这 一 步骤 的 优点 是 可 以 根据 输入 数据 的 不 同 进 
行 针 对 式 的 解析 ,缺点 就 是 可 能 会 让 使 用 者 选择 困难 ， 无 所 适 从 。 在 本 间 中 ， 统 一 选择 xml 
解析 器 。 


6.2.1 bs4 解析 器 选择 


网 络 爬 虫 最 终 的 目的 就 是 过 滤 选 取 网 络 信 息 ， 因 此 最 重要 的 部 分 就 是 解析 器 了 。 解 析 器 
的 优 劣 决 定 了 网 络 爬 虫 的 速度 和 效率 。Beautiful Soup 除了 支持 Python 标准 库 中 的 HTML 解 
析 器 外 ， 还 支持 一 些 第 三 方 的 解析 器 。 表 6-1 中 列 出 了 主要 的 解析 器 ， 以 及 它们 的 优 缺 点 。 
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表 6-1 bs4 解析 器 对 比 


解析 器 


占 占 
Python 标准 库 BeautifulSoup(markup,”html.parser”) | Python 标准 库 Python 2.7.3 or 
执行 速度 适中 Python 3.2.2 之 前 
AAETH 的 版 本 中 文 容错 
能 力 差 


Ixml HTML 解析 | BeautifulSoup(markup,”Ixml!”) 速度 快 需要 安装 C 语言 
ft 容错 能 力 强 


Lxml XML 解析 器 | BeautifulSoup(markup,[“Ixml-xml”]) | 速度 快 需要 安装 C 语言 
BeautifulSoup(markup,” xml”) 唯一 支持 XML 解析 器 | 库 


库 
htmlSlib BeautifulSoup(markup,”html5lib”) 最 好 的 容错 性 速度 慢 
以 浏览 器 的 方式 解析 文 | 不 依赖 外 部 扩展 
档 
生成 HTML5 格式 文档 


Beautiful Soup 官方 推荐 使 用 xml 作为 解析 器 ， 据 说 因为 lxml 解析 占 的 效率 更 高 ， 在 此 
接受 官方 意见 。 本 间 所 有 的 bs4 爬虫 ， 如 无 特殊 说 明 都 将 使 用 lxml ART AE o 


6.2.2 Ixml 解析 器 安装 
1. Windows 下 安装 lxml 解析 器 
先 使 用 pip 安装 试 一 下 ， 执 行 命令 : 


pip install lxml 


执行 结果 如 图 6-19 所 示 。 


ron_message.xsl -> build\lLib.win-amd64-2 .?\lxml\isoschematron\resources\xslNiso < 
schematron—xs]1t1 
copying src\lxml\isoschematron\resources \xs 1\iso—-schematron-—xs l1ti\iso_schema 
von_skeleton_for_xslti.xsl -> build\lib.win-amd64-2 .7?\1lxml1\Nisoschematron\vresour 
es \xs 1Niso-schematron-xs 1t1 
copying src \lxml\Nisoschematron\resources \xs 1\iso-schematron-—xs lti\iso_surl_f 
pr _xslti.xsl -> build\lib.win-amd64-2.7\lxmlNisoschematron\vresources \xs 1l\iso-sch 
lematron-xslti 
copying srce\lxmlNisoschematron\resources \xs 1\iso~schematron— xs 1ti1\readme .txt 
—> build\lib.win-amd64-2 .?\1lxml\isoschematron\resources \xs L\iso-schematron-xs lt 


running build_ext 


d:\program files\python2?\python.exe" -u -c “import setuptools. tokeni 


ze;_file__=’c:\\Nusers \\king\\appdataN\\local\\temp\\pip-build-v jnf 7b\\lxml\\setu 
p. py’ sexecCcompile<getattr<tokenize. ’open’,. open><_file_)>-.read()>.replaceC’ ye 
-rn > _file_. ’exec’>)>" install --record c:N\users\king\appdata\local\temp 
pip—-xnk?gp—record\install-record.txt -—-single-version—externally—managed 一 -comp 
lile” failed with error code 1 in c:\users\king\appdata\local\temp\pip—build-vjnf 


6-19 Windows 安装 lxml 
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在 Windows 下 使 用 pip 安装 lxml 总 会 出 现 这 样 或 那样 的 问题 。 如 果 非 要 用 pip 安装 ， 那 
怠 按 照 提 示 的 错误 一 步 一 步 地 解决 所 有 的 错误 ， 再 pip 安装 。 如 果 不 退 求 过 程 只 要 求 结果 ， 
那 就 简单 了 。 先 在 http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下 载 符合 目 己 系统 版 本 的 
Ixml 〈 笔 者 下 载 的 是 lxml-3.6.1-cp27-cp27m-win amd64.whl)， 使 用 pip 远程 安装 wheel 模块 
后 再 使 用 pip 本 地 安装 lxml 模块 。 执 行 命令 : 


pip install wheel 
pip install c:\user\king\Downloads\1lxml-3.6.1-cp27-cp27m-win_amd64.whl 


在 cmd.exe 里 测试 一 下 ， 如 图 6-20 Ara. 


= Wsers \king>python 
Python 2.7.11 (v2.7.11:6d1b6a68f775. Dec 5 2615, 26:48:38> [MSC v.1588 64 bit < 


AMD64>1] on win32 
". “copyright”, “credits” or “license” for more information. 


6-20 ”测试 lxml 模块 
没有 提示 错误 ， 表 明 安 装 成 功 。 
2. Linux 下 安装 lxml 解析 器 
使 用 apt-get 安装 ， 执 行 命令 : 


apt-get install python-1lxml 


执行 结果 如 图 6-21 所 示 。 


root@debian: ae apt-get install python-lxml 
正在 读 取 软件 包 列 表 
正在 分 析 软 件 包 的 依赖 关系 树 
正在 读 取 状态 信息 . . .完成 
patina pit ony 
ython-lxml- 
+H 【新 ] BHD BREE: 
python-1lxml 


升级 了 0 个 软件 包 ， 新 安装 了 1 TRA, BHR 0 个 软件 包 ， 有 6 个 软件 包 未 被 升级 


需要 下 载 0 B/754 kB 的 软件 包 . 

解压 缩 后 会 消耗 掉 2,840 kB 的 额外 空间 。 

| 正在 选中 未 选择 的 软件 包 python-lxml. 

| (正在 读 取 数据 库 ... 系统 当前 共 安 装 有 83305 个 文件 和 目录 。) 


正 准 备 解 包 . ./pychon-lzml - 3.4.0-1 amd64.deb ... 


| 正在 解 包 eee lxml (3.4.0-1) ... 
正在 设置 python-lxml (3.4.0-1) ... 
root@debian: /home/king# 


6-21 Linux 安装 Ixml 


显然 Linux 的 apt-get 更 加 简单 方便 。 


6.2.3 ”使 用 bs4 过 滤器 


在 上 一 章 中 ，Scrapy 使 用 XPath 当 过 滤器 ， 在 网 页 中 过 滤 得 到 所 需 的 数据 。 本 草 bs4 M 
使 用 BeautifulSoup 做 过 滤器 。 与 XPath 相同 的 是 BeautifulSoup 同样 支持 组 套 过 滤 ， 可 以 很 
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方便 地 找到 数据 所 在 的 位 置 。 不 同 的 是 BeautifulSoup 的 查找 方式 更 加 灵活 方便 ， 不 但 可 以 通 
过 标签 查找 ， 还 可 通过 标签 属性 来 查找 。 而 且 bs4 还 可 以 配合 第 三 方 的 解析 器 ， 可 以 有 针对 
性 地 对 网 页 进行 解析 ， 使 bs4 威力 更 加 强大 、 方 便 。 

官网 教程 上 使 用 的 是 爱丽 丝 梦 游 仙 境 的 内 容 作 为 示例 文件 ， 但 这 个 文件 比较 大 ， 看 起 来 
没 那 么 直观 。 这 里 笔者 目 建 一 个 html 的 示例 文件 scenery.html， 通 过 对 scenery.html 的 操作 过 
滤 ， 再 对 照 官 网 对 示例 文件 的 操作 方法 ， 很 容易 就 能 明白 bs4 是 如 何 过 滤 提 取 数 据 的 。 


【示例 6-2】 目 建 示例 文件 scenery.html 的 内 容 如 下 : 


进入 文件 目录 执行 命令 : 


执行 结果 如 图 6-22 Pra. 
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>>> BABB BE Sd fy 

<bound method BeautifulSoup.prettify of <html> 

<head> 

<meta charset="utf-8" 

eitie RIMI title 

<meta content= "武汉 旅游 景点 SRR" name="description"/> 
<meta content="hstking” name="author"/> 


<ul class="table 

<1i> 景 点 cas SMR TS Crs 

</ul> 

<ul class="content"> 

<li nu="1"> 东 湖 <a class="price">60 </a></li> 

<li nu="2">B ili <a class="price">60 </a></1i> 

<li nu="3">MK KE <a class=" price">108 </a></li> 

<li nu=n4n> 海 虽 极 地 海洋 世界 <a class=" price">150 </a></li> 
<li nu="5"> 玛 雅 水 上 乐园 <a class="price">i50 </a></li> 
</ul> 

</div> 


6-22 soup.prettify 


bs4 会 将 所 有 输入 的 内 容 的 字符 编码 编 为 unicode。 输 入 内 容 为 英文 时 还 看 不 出 什么 优 


势 ， 但 在 过 滤 中 文 网 页 时 会 非常 方便 。 


一 个 文件 或 一 个 网 页 ， 在 导入 BeautifulSoup 处 理 之 前 ，bs4 并 不 知道 它 的 字符 编码 是 什 
么 。 在 导入 BeautifulSoup 过 程 中 ， 它 会 自动 地 猜测 这 个 文件 或 是 网 页 的 字符 编码 。 常 用 的 编 
码 当 然 会 又 快 又 好 地 猜 出 来 。 但 不 常用 的 编码 呢 ? 好 在 BeautifulSoup 还 有 两 个 非常 重要 的 参 
数 : exclude encoding 和 from encoding。 

参数 exclude encoding 的 作用 是 排除 抒 不 正确 的 字符 编码 。 例 如 ， 已 经 非常 确定 网 页 不 
是 iso-8859-7 也 不 是 gb2312 编码 ， 但 又 未 知 网 页 编码 时 ， 就 可 以 使 用 命令 : 


此 时 bs4 就 会 放弃 猜测 这 两 种 编码 。 比 如 如 果 已 知 网 页 的 具体 编码 是 big5， 也 可 以 直接 
使 用 from_encoding 参数 确定 编码 ， 让 bs4 放弃 猜测 ， 可 以 使 用 命令 : 


一 般 来 说 bs4 都 不 需要 目 己 确定 编码 ， 第 用 的 字符 编码 它 都 能 检测 出 来 。 但 有 时 碰见 比 
较 生 僻 的 编码 时 ， 这 两 个 命令 就 显得 非常 重要 了 。 中 文 的 字符 编码 是 个 非常 讨厌 的 问题 ， 如 
果 不 知 道 文件 的 字符 编码 ， 而 bs4 又 解析 编码 错误 时 ， 那 就 只 有 根据 官网 的 方法 ， 安 装 
chardet 或 者 cchardet 模块 ， 然 后 使 用 UnicodeDammit 目 动 检测 了 。 

解决 字符 编码 这 个 问题 后 ， 己 经 得 到 了 soup 这 个 bs4 WA. Æ soup 中 ，bs4 将 网 页 节点 
解析 成 了 一 个 个 Tag。 同 名 的 Tag (HTML 中 的 标签 就 那么 几 个 ， 所 以 同名 的 Tag 会 非常 
Z) 会 有 不 同 的 属性 。 即 使 同名 又 同属 性 的 Tag， 它 们 又 有 顺序 和 父 标 签 的 区 别 。bs4 就 是 通 
过 这 些 不 同 将 所 需 的 数据 过 滤 出 来 的 。 

这 里 的 Tag 与 html 或 xml 中 的 Tag 是 一 致 的 。 执 行 命令 : 
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得 到 的 结果 如 图 6-23 所 示 。 

以 上 命令 的 作用 是 通过 soup 来 获取 第 一 次 出 现 的 标签 名 为 ul 的 标签 内 容 。 用 同样 的 方 
法 ， 可 以 获取 第 一 个 出 现 的 ， 标 签名 为 div、1i、head、title…… 的 标签 内 容 。 

如 果菜 个 标签 只 出 现 了 一 次 ， 比 如 <head>、<title> 标 签 ， 通常 只 会 出 现 一 次 。 可 以 用 
soup.head 和 soup.title 的 方式 获取 标签 内 容 ， 还 可 以 用 bs4 过 滤器 soup.find(Tag, [attrs]) 的 方法 
获取 第 一 次 出 现 的 标签 的 内 容 。 执 行 命令 : 


执行 结果 如 图 6-24 所 示 。 


>>> aaa = BeautifulSoup(open('scenery.html'), 'lxml') 


es 
pate clase="tabie*> 


1i> 景 点 <a> 门 票 价格 </a></1i> 


OULD J < 
ul class="table"> >>> soup.find('ul') 
1i> 景 点 <a> 门 票 价格 </a></1i> ul class="table"> 
ul> 1i> 景 点 <a> 门 票 价格 </a></1i> 
/ul> 
z 


6-23 soup 获取 Tag 6-24 soup.find 获取 Tag 
在 一 个 HTML 文件 中 ， 有 的 标签 肯定 不 止 出 现 一 次 。 有 具体 到 这 个 示例 文件 scenery.html 
中 ，<div>、<ul>、<li> 就 不 止 出 现 一 次 。 第 一 次 出 现 的 标签 位 置 如 何 确定 已 经 很 清楚 了 ， 那 
第 二 次 、 第 三 次 、 第 N 次 呢 ? bs4 给 出 的 方法 是 soup.find_all(Tag，[attrs]) 。 使 用 soup.find_all 
命令 可 以 获取 所 有 符合 条 件 的 标签 列表 ， 然 后 直接 从 列表 中 读 取 就 可 以 了 。 执 行 命令 : 


执行 结果 如 图 6-25 所 示 。 


>>> soup.find as ul') 


Ped cart It H</a></1i> 

</ul>, <ul class="content"> 

<li nu="1w> 东 湖 <a class="price">60 </a></li> 

<li nu="2">Bu <a class="price">60 </a></li> 

<li nu="3">K RS <a class="price">108 </a></li> 

<li nu="4n> 海 虽 极 地 海洋 世界 <a class="price">150 </a></li> 
<li nu="S">S KER <a class="price">i50 </a></li> 


>>> soup.find all('ul') [0] 


ciass= aple 
1i> 景 点 <a> 门 票 价格 </a></1i 
ul> 


>>> soup.find all(‘ul') 
> 


li nu="1 ">R <a class="price">60 </a></li> 

li nu="2">Bill <a class="price">60 </a></li> 

li nu="3"> 欢 乐 从 <a class="price">108 </a></li> 

li nu="4"> 海 虽 极 地 海洋 世界 <a class="price">150 </a></li> 
li nu="5"> 玛 雅 水 上 乐园 <a class="price">i50 </a></li> 


6-25 soup.find all 获取 Tag 
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从 顺序 上 来 区 别 同 名 标签 ， 这 样 出 现 再 多 的 同名 标签 也 可 以 很 从 容 地 定位 了 。 在 html 
中 ， 同 名 标签 比较 少时 ， 可 以 先 用 soup.find all 来 获取 标签 位 置 列 表 ， 再 用 一 个 个 数 的 方法 
来 确定 标签 位 置 。 如 果 这 个 列表 比较 短 还 好 ， 从 1 数 到 20 还 可 以 接受 。 如 果 这 个 列表 很 长 
呢 ? 从 1 数 到 100 那 就 太 讨 厌 了 。 

还 是 以 scenery.html 文件 为 例 ， 文 件 中 的 <l 户 标签 ， 目 前 在 文件 中 只 出 现 了 6 次 。 如 果 列 
出 所 有 的 景点 ， 标 签 <l 户 出 现 60 次 都 不 奇怪 。 仔 细 观 察 一 下 1 标签， 它们 除了 名 字 相 同 外 ， 
还 有 一 个 相同 的 属性 nu， 而 属性 nu 的 值 是 不 同 的 。bs4 过 滤 堪 Soup.find 和 soup.find_all 都 
文 持 名 字 + 属 性 值 定位 。 

如 果 一 个 html 文件 中 出 现 了 标签 名 相同 ， 属 性 不 同 的 标签 。 例 如 ，scenery.html 文件 中 
的 <l> 标 签 ， 可 以 用 soup.find(TagName，attrs={attrrName:attrValue}) 的 方法 获取 Tag 的 位 置 。 
比如 需要 定位 标签 文字 为 欢乐 谷 的 那个 <li> 标 签 〈<l> 标 签 的 属性 是 相同 的 ， 都 是 nu， 只 是 
属性 值 不 同 )。 可 以 执行 命令 : 


soup, find{* lit, attrs={'nu':'3'}) 
执行 结果 如 图 6-26 所 示 。 


>>> soup.find('li', attrs={'nu':'3'}) 


<li nu="3">MK RES <a class="price">108 </a></li> 
>>> 


6-26 soup.find 配合 属性 获取 标签 
如 果 标 签名 相同 ， 属 性 相同 ， 连 属性 值 都 相同 的 标签 ， 那 就 用 soup.find_all(tagName, 
attrs={“attName”:*attValue”}) 将 所有 符合 条 件 的 标签 装 入 列表 ， 然 后 从 列表 中 慢 慢 地 数 。 请 放 
心 ， 一 般 情 况 下 ， 标 签名 相同 ， 属 性 相同 ， 连 属性 值 都 相同 的 标签 在 任何 一 个 文件 中 都 是 很 


少见 的 。 在 scenery.html 文件 中 ， 符 合 这 个 条 件 的 只 有 <a> 标 签 〈( 如 果 是 显示 完整 的 景点 <a> 
标签 也 会 很 多 ， 那 是 下 一 步 的 问题 )。 如 果 需 要 获取 景点 “麻山 ”这 一 行 的 <a> 标 签 ， 可 以 执 
行 命令 : 

Tags = soup.find_all('a', attrs={'class':'price'}) 

Tags[1] 

执行 结果 如 图 6-27 所 示 。 


>>> Tags = soup.find all('a', attrs={'class':'price'}) 


>>> Tags[i] 
<a class="price">60 </a> 
>>> 


6-27 soup.find_all 配合 属性 获取 标签 
目前 HTML 没有 列 出 所 有 的 景点 ，<a> 标 签 还 比较 少 ， 如 果 列 出 了 所 有 景点 <a> 标 签 很 
多 ， 该 怎么 办 ? 再 仔细 观察 一 下 <a> 标 签 ， 所 有 <a> 标 签 的 标签 名 、 属 性 和 属性 值 虽然 是 相同 
的 ， 但 它们 的 上 级 标签 〈 也 就 是 各 说 的 父 标签 ) 的 标签 名 、 属 性 和 属性 值 总 不 可 能 相同 吧 ? 
即使 运气 再 差点 ， 上 级 标签 的 标签 名 、 属 性 、 属 性 值 都 相同 ， 上 上 级 标签 的 难道 也 相同 ? 还 
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是 以 获取 景点 ,“ 磨 山 ” 这 一 行 的 <a> 标 签 为 例 ， 执 行 命令 : 


执行 结果 如 图 6-28 所 示 。 


>>> Tags = soup.find all('a', attrs={'class':'price'}) 


<a class="price">60 </a> 


mine ag. Q = 
<a class="price">60 </a> 


6-28 soup KEIRA 


这 种 不 直接 定位 目标 标签 ， 先 间接 定位 目标 标签 的 上 级 (也 可 以 是 下 级 ) 标签 ， 再 间接 
定位 目标 标签 的 方法 ， 有 点 类 似 于 Scrapy 中 XPath MRE WUE S 

实际 上 ， 如 果 和 觉得 目标 标签 没什么 显 车 特征 ， 上 级 标签 和 下 级 标签 也 没有 什么 显 背 特 
征 。 还 可 以 定位 目标 标签 的 兄 第 标签 。 不 过 这 种 方法 一 般 很 少 用 ， 这 里 束 不 多 说 了 。 如 果 有 
兴趣 可 以 参考 官方 文档 。 

一 般 来 说 ， 最 终 需 要 获取 保存 的 数据 都 不 会 是 标签 ， 而 是 标签 里 的 数据 ， 这 个 数据 有 可 
能 是 标签 所 包含 的 字符 串 ， 也 有 可 能 是 标签 的 属性 值 。 不 过 获取 标签 后 ， 要 数据 那 就 很 简单 
了 。 例 如 获取 示例 文件 中 海 昌 极地 海洋 世界 这 个 景点 的 序号 和 标价 ， 也 就 是 这 一 行 标 签 <li> 
的 属性 nu 的 值 和 <a> 标 签 包 含 的 字符 串 。 可 以 执行 命令 : 


执行 结果 如 图 6-29 所 示 。 


>>> Tag = soup.find('li', attrs={'nu':'4"'}) 
>>> Tag 
<li nu=n4"n> 海 量 极 地 海洋 世界 <a class="price">150 </a></li> 


>>> Tag.get (‘nu 


>>> Tag.a.get text () 


150 * 
>>> Tag.find('a').get text() 
"750 ° a 


6-29 soup 获取 数据 


WR EW RL, TAL LAUR ATT. WREE bs4 进行 深度 挖掘 ， 还 需 
要 读者 自行 参考 bs4 的 官方 文档 。 
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bs4 [CBS — : 获取 百度 贴吧 内 容 


笔者 是 个 美剧 迷 ， 经 党 在 网 上 人 退 剧 ， 侦 尔 也 在 百度 贴吧 上 看 看 美剧 贴 ， 可 懒 癌 又 比较 严 


午 ， 大 大 登录 贴吧 便 看 贴 子 又 党 得 很 腑 烦 。 干 脆 就 写 个 仆 虫 让 它 目 动 息 内 容 好 了 ， 有 空 就 看 
看 哪些 帖子 回复 了 ， 又 有 哪些 新 贴 。 这 里 以 特 度 贴吧 里 的 “权利 的 族 戏 吧 ” 为 例 。 


6.3.1 


目标 分 析 


百度 贴吧 中 “权利 的 游戏 ”的 URL 是 http://tieba.baidu.com/f?kw=%E6%9ID%83%ES% 


88%A99%E7%9A%84%E6%B8%B8%E6%88%8F&ie=utf-8&pn=0。 看 起 来 很 乱 是 不 是 ? 仔细 看 
看 这 个 URL， 其 中 包含 有 ie=utf-8， 说 明 那 个 浏览 器 接受 的 是 utf 的 字符 编码 ， 而 在 
Windows 下 默认 的 是 GBK 码 ， 所 以 在 Windwos 下 如 果 想 让 浏览 器 能 正常 识别 URL， 就 必须 
把 Windows 默认 的 GBK 转换 成 utf8 格式 。URL 是 纯 英 文 的 情况 下 ， 转 不 转换 都 没关系 ， 反 
正 都 是 一 样 的 。 当 URL 含有 中 文 时 ， 转 换 后 的 URL 就 会 出 现 乱 码 ， 如 图 6-30 Ara. 


学 king@debian: ~ 7 ue Eo |S) | 
Using username "king". 
Authenticating with public key "imported-—openssh-key" 


The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 

Last login: Mon Aug 15 15:36:32 2016 from 192.168.2.99 
king@debian:~$ python 

Python 2.7.9 (default, Mar 1 2015, 12:57:24) 

{GCC 4.9.2] on linux2 


Type “help”, “copyright”, “credits” or "license" for more information. 
>>> st = u' 权 利 的 游戏 ' 

>>> st.encode('utfs') 
*\xe6\x9d\x83\xe5\x88\xa9\xe7\x9a\x84\xe6\xb8\xb8\xe6\x88\xst' 


>>> 


图 6-30 ”编码 转换 


这 个 由 “权利 的 游戏 ”转换 而 来 的 乱码 是 不 是 很 眼熟 。 所 以 这 个 URL 原本 的 状态 应 该 是 


http:Wtieba.baidu.com/f?kw= 权 利 的 游戏 &ie=utf8&pn=0， 在 交 给 浏览 器 或 者 python 程序 处 理 
时 再 将 它 转换 成 utf8 编码 就 可 以 了 。 


fe Mh EP oa “ FW” fe A, i bi as Be Re FB) URL 是 


http://tieba.baidu.com/f?kw=%E6%9D%83%E5%88%A9%E7%9A%84%E6%B8%B8%E6%88%8 
F&ie=utf8&pn=$0。 好 的 ， 明 白 了 。 每 按 一 次 “下 一 页 ”按钮 ，pn 将 增加 50. 


在 浏览 器 《这 里 使 用 的 是 Chrome 浏览 器 ， 其 他 浏览 器 基本 上 都 送 不 多 ) 中 打开 这 个 


URL (utf8 版 的 和 GBK 版 本 的 都 行 ， 浏 览 吉 会 目 动 转换 成 utf8 版 的 ， 但 在 python 程序 中 必 
须 使 用 utf8 版 的 ) ， 碍 看 帖子 标题 ， 如 图 6-31 Ara. 
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Bai 权利 的 游戏 Ex: 
Sx ; 


en tann 


FURRA 1-65, ARK Carpe__ 


“AQ AEE} (Game of Thrones h RB SEERA RR OT Wats) ik liu78902 


Mint 呀 


需要 资源 的 宝 风 看 进来 哇 Mint 呀 
6-31 bs4 爬虫 来 源 页 面 


在 负面 空 日 处 右 击 选择 “ 俘 看 页 面 源 代码 ”， 在 页 和 面 源 代码 网 页 控 Ctrl+F 键 打开 得 找 
框 ， 在 查找 框 内 输入 第 一 个 帖子 的 标题 名 ， 找 到 所 需 数 据 人 位置 ， 如 图 6-32 所 示 。 


<ul_i& “thread list” clas=“threadlist bright j_threadlist_bright”> | 权利 的 游戏 1-6 季 ， ABE 第 1 条 , 共 2 条 
1 Class= thread TR cleartix Hatar- 
d= i&quo b §,aquot ,author_name&quot; :&quot ;Carpe Diem __&quot i, 4quot : first_post_idb quot ;: 93981199839, &quot ; rep 
: 374, heat is acon mat) Beast ae :&quot ;&quot ;,&quot :is_good&quot; maii &quot ;is_top&quot ; :null, åquot ; is_protal&quot ;: 
_mnembertop& quot ;:rull,&quot :frs_tpoint&quot ::rmll}” > 
<div class=“t_con cleafix"> 


<div class=“col2_left j_threadlist_li left > 
<span class="threadlist_rep_num center_text” 
title=“ 回复 “>374</ spar> 
</div> 
<div class=“col2 right j_threadlist_li right “> 
<div class=“threadlist_lz clearfix” > 
<div class=“threadlist_title pull_left ] th t+it 


<a href=" /p/4673258358"§tit le= 
</div><div class=“threadlist author p 


图 6-32 所 需 数 据 位 置 


找到 所 需 数据 的 位 置 后 ， 仔 细 观 察 一 下 ， 发 现 所 有 帖子 都 有 一 个 共同 的 标签 <li class=" 
j_thread_list clearfix"> (这 个 标签 还 有 其 他 的 属性 ， 只 需要 一 个 共同 的 属性 就 够 了 〉 。 所 以 只 
需要 用 bs4 过 滤器 find_all 找到 所 有 的 标签 ， 然 后 再 进一步 分 离 出 所 需 的 数据 就 可 以 了 。 


6.3.2 ”项目 实施 


既然 思路 都 已 经 明确 了 ， 那 就 开工 吧 。 打 开 Eclipse, "iG New 图 标 右 侧 的 三 角 按 钮 ， 
在 弹出 菜单 中 选择 PyDev Project 项 ， 如 图 6-33 所 示 。 


Source Folder 


PyDev Package 
PyDev Module 
Folder 

? File 

” Untitled Text File 


Other... 


6-33 Eclipse 创建 Python 新 项 目 
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在 弹出 的 对 话 框 中 输入 项 目 名 称 ， 单 击 Finish 按钮 ， 如 图 6-34 所 示 。 


Fle Edit Navigate Search Project Pydev Run Window Help 
Te yl wiG@itey Or Gri wi: 


Hi PyDev Package... X 


PyDev Project 


Create a new PyDev Project. 


Project name: baiduBS4 


Project contents: 
Use default 
ory | E:\save\sync\code\crawler\bs4Project\baiduBS45 

Project type 

Choose the project type 

© Python © Jython © IronPython 
Grammar Version 
2 


Interpreter 


lick her nfiqure an interpreter not li 


@ Add project directory to the PYTHONPATH 

© Create ‘src’ folder and add it to the PYTHONPATH 

© Create links to existing sources (select them on the next page) 

© Don't configure PYTHONPATH (to be done manually later on) 
Working sets 


[T] Add project to working sets 


图 6-34 输入 项 目 名 


在 Eclipse 的 左 侧 右 击 刚 建立 的 项 目 baiduBS4， 在 弹出 的 菜单 中 选择 New|PyDev Module 
菜单 。 在 项 目 中 创建 一 个 新 的 Python 模块 (前 面 提 到 过 ， 这 里 选择 PyDev Module 是 为 了 方 
便 。 非 要 选择 file， 从 和 零 开 始 一 步 步 地 创建 一 个 Python 文件 当然 也 可 以 ) ， 如 几 6-35 所 示 。 


= bs4Project - PyDev- 
File Edit Navigate Search Project pydev Run Window Help 


TO OE aA 


a (cB ay 
> New | 


File 
Folder 


Link to Existing Source 


Source Folder 


[P] PyDev Module 


册 PyDev Package 


Rename... 


Remove from Context Ctrl+Alt+Shift+Down 


ry Other... Ctrl+N 


6-35 项 目 中 创建 Python 文件 
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在 弹出 的 对 话 框 中 输入 Python 文件 的 文件 名 《无 须 加 后 缀 名 ) ， 右 击 Finish 按钮 。 
Python 文件 创建 完成 ， 如 图 6-36 所 示 。 


Source Folder /baiduBS4 
Package 


Name getCommetinfo} 


6-36 Python 文件 名 
【示例 6-3】 在 新 创建 的 getCommentinfo.py 中 输入 代码 ，getCommentInfo.py 的 代码 如 下 : 
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#68 Beautiful Soup ME H 


按照 上 面 的 步骤 ， 在 项 目 中 重新 建立 一 个 名 为 mylog.py 的 PyDev Module (也 可 以 是 一 
个 单纯 的 File )。 


【示例 6-4] mylog.py 的 内 容 如 下 : 


Python PMR SAK ) 


#68 Beautiful Soup ME 


项 目 代 码 已 经 完成 了 。 此 时 Eclipse 中 的 项 目 如 图 6-37 所 示 。 


上 


m T ar Thabane Quick Access | 
Hf PyDev Package.. % = O ÍD getCommentinfo x Ei mylog_ 


TESI mae 
z -*- coding: ytf-8 -*- 


> etCommentinfo.py 4 Created on 201628495 
> |B) mylog.py 3 SEPPE 
f 3 . 2 
> @& U:\Program Fles\python x paer bathing 
Ø helloPvthon 8 
9 
189 import urllib2 
11 from bs4 import BeautifulSoup 
12 from mylog import MyLog as mylog 
13 


14 


15 class Item(object): 

title = None Hu tee 
firstAuthor = None z 
firstTime = None *8ss are 
reNum = None f2ESS 
content = None *S=Ss=5 
lastAuthor = None £ 
lastTime = None #s<"e6= 


6-37 Eclipse 项 目 baiduBS4 


单 击 菜单 栏 上 的 运行 图 标 ， 程 序 运行 完 毕 后 单 击 baiduBS4 项 目 图 标 ， 按 FS 键 刷新 。 得 
到 的 结果 如 图 6-38 所 示 。 
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File Edit Navigate Search Project Pydev Run Window Help 
yi ii ey Or Brio PW vidisliMiviv gly, Or Quick Access 8 | & (E) t 


Hi PyDev — 又 [P] getCommentinfo getCommenti... 百度 贴吧 _ 权 利 的 游戏 .bd 7) 一 . 


ltitle: sesawenes+henl-65 ! Fees Sees ehpuselo author: s#=2shpu4 a 
2 content: E 
7 3 return:110 
Se log 4 lastAuthor: jobforduani lastTime:23:17 


> [P] getCommentinfo.py s 
? mylog.Py 


8 title: Bsa eeweese45035'597eeeRe author:h66387826968  firstTime:8-9 
9 content: #2 eerie re SSS Oc" 4 EMSRS AN+RECKLERONER SR R 
19 return:72 

U J helloPython 11 lastAuthor:@¢ee0+-s6¢  lastTime:23:17 


13 

14 

15 title: $63 AEST RSE ge author: 2 R vases. firstTime:8-1 
content: ®t: mfzy9988 axe 
return:23 
lastAuthor : 74S8000 lastTime:23:17 


22 title: seSRe+RSS+SH1-6e < RK RSS RRSY RERREBRSSsee ese author: ss 
23 content: &@#sytv8866 ns ytv8866 Mtr ARE KARE KNASRRA T 
aq t 
© Console 员 Fù pyUnit EE RL 加 加 ~E- pde pani- 
<terminated > -a py 


2016-08-16 23:17:34,651 INFO king GUIA<KKHREASA RBRFARKS IOOLHANS>> NTS? 


图 6-38 Eclipse 运行 结果 


运行 完毕 后 得 到 了 两 个 新 文件 。 一 个 是 log 文件 getCommentInfo.log， 一 个 是 爬虫 保存 结 
果 文 件 “ 百 度 贴 吧 _ 权 利 的 游戏 .txt”。 在 “百度 贴吧 _ 权 利 的 游戏 .txt” 文 件 中 的 中 文明 显 有 
乱码 ， 没 关系 ， 那 是 因为 直接 用 Eclipse 的 编辑 器 打开 的 缘故 。 右 击 Eclipse 左边 “百度 贴吧 _ 
权利 的 游戏 .txt” 的 图 标 ， 在 弹出 的 菜单 中 选择 Open With 菜单 ， 然 后 在 弹出 的 子 染 单 中 选择 
System Eitor 项 ， 使 用 Windows 目 融 的 笔记 本 打开 文件 ， 乱 码 就 不 见 了 ， 如 图 6-39 所 示 。 
SRD. hk Se E E 


File Edit Navigate Search Project Pydev Run Window Help 


iy MA: 0 EE Grae Sakic a | + | 
H PyDev Package.. (3 7 O IP) getCommentinfo 目 getCommentl... BD 百度 贴吧 权利 的 游戏 ,bxt 器 |) 一 E 
= & $ 7 1 title: s¢semeSeet+ee eel -6s Jamesa Sees shpu4sele author :s#S8ehpu4 a 
i 2 content: 
- Š baiduBs4 3 return:110 
B getCommentinfo.log 4 lastAuthor: jobforduani lastTime: 23:17 
> P) getCommentinfo.py a 
> B) mylog.py 
D 百度 贴吧 _ 权 利 的 游戏 .txt 5 title: Besecetceseese45035'597eeee¢ author:h6e387626e@ firstTime:d-¢ 
> @ D:\Program Files\python 9 CONTENT: RESRHOLE PRAM ACUROLRELRI SEER CKSRORES SE S 
WD hell h 10 return:72 
~ all aula 11_lastAuthor:#zse+He¢ lastTime: 23:17 


G AERE AAR bet - 记事 本 


SAF) SRE) ERO BBW) H) | 
|title: (238) a 要 的 加 wheu4610 
content: 

return:110 

lastAuthor : jobforduanl lastTime:23:17 


author :malwhpudd1l0 firstTime:8-11 


1 h$03878260 FirstTime: 8-9 


图 6-39 笔记 本 打开 文件 
这 是 因为 “百度 贴吧 _ 权 利 的 游戏 .txt” 文 件 中 数据 保存 的 古 utf8 编码 。 Eclipse 目 市 的 文 
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Fut as BRU SCH EE GBK 编码 ， 所 以 会 显示 乱码 。 而 Windows 记事 本 notepad HARTER 
认 文 持 的 是 GBK， 但 是 它 同 时 也 文 持 utf8 编码 。 


6.3.3 ”代码 分 析 

在 项 目 baiduBS4 中 除了 主 程 序 外 ， 笔 者 还 目 定 义 了 一 个 mylog.py Ik OF, WE 
块 ， 这 个 python 程序 就 是 做 模块 用 的 ) 。 这 个 模块 的 作用 很 明显 ， 就 是 为 了 主 程 序 提供 log 
功能 。 

log 功能 很 重要 。 虽 然 Eclipse 已 经 提供 了 非常 方便 的 Debug 功能 。 没 有 log 配合 就 只 能 
从 头 到 尾 一 步 一 步 地 调试 。 几 步 十 几 步 那 也 了 驶 人 奶 了 ， 可 疏 虫 动 辑 几 十 页 上 昕 页 的 朴 行 ， 一 旦 
Hin, WA log 帮助 定位 ， 很 难 找到 错误 点 。 

这 个 mylog.py 写 得 很 简单 。 只 是 将 Python 的 标准 模块 logging 简单 地 包装 了 一 下 。 第 
9~11 行 导 入 了 所 震 的 Python 模块 。 第 15 行 创建 了 一 个 新 的 类 。 第 18~24 行 定 义 了 log 文件 
的 文件 名 、 用 户 名 、log 的 等 级 以 及 log 文件 的 格式 。 这 里 要 稍 做 说 明 的 是 ， 在 log 的 格式 
selfformatter 的 最 后 添加 了 一 个 \wn。 那 是 因为 在 Windows 下 换行 符号 是 wwn， 如 果 是 在 Linux 
下 ， 加 Wn 就 可 以 了 。mylog.py 这 个 目 建 模块 在 Windows 和 Linux 下 基本 是 通用 的 。 

第 27~36 行 则 定义 了 两 个 loghandler。 一 个 是 将 log 输出 到 文本 中 ， 一 个 是 将 log 输出 到 
终端 方便 调试 。 第 39~52 行 则 按照 logging 模块 定义 了 5 个 log KH. 

主 程序 getCommentinfo.py 也 比较 简单 。 第 10~12 行 还 是 导入 所 需 的 模块 。 在 第 15~22 
行 定 义 了 一 个 新 类 。 还 记得 Scrapy 框架 中 的 items.py 吗 ? 主 程序 里 的 Item 类 就 是 仿照 
Scrapy 框架 中 的 items.py 写 的 。 个 人 认为 Scrapy 的 框架 非常 方便 ， 也 很 合理 ，Scrapy 优秀 的 
地 方 就 直接 学 习 借 鉴 了 。 也 可 以 完全 参考 Scrapy 的 方法 ， 重 新 建立 一 个 Python 模块 ， 将 这 
个 类 放 到 一 个 单独 的 文件 中 。 

第 25 TAE SACRA. F 27 1FE KM SME AA URL。 第 28 行为 类 创建 了 一 个 
log。 第 29 行 则 定义 了 改行 的 页 数 ， 这 里 定义 只 改行 了 5 页 ， 实 际 上 有 接近 1000 HAM. WwW 
有 必要 ， 完 全 可 以 一 网 打 尽 。 第 30~32 行 执行 类 函数 。 

第 34-43 行 定 义 了 一 个 getUrls 的 类 函数 。 这 个 函数 的 作用 是 根据 页 和 面 变 化 的 规律 (每 向 
后 翻 一 页 ，pn 增加 50〉， 将 所 有 的 URL 装 入 一 个 列表 中 去 ， 供 下 一 个 类 函数 调用 。 

第 45~62 行 定义 了 一 个 spider 的 类 函数 。 这 个 函数 也 参考 了 Scrapy 的 spider。 与 scrapy 
不 同 的 是 Scrapy 使 用 的 是 XPath 过 滤器 ， 而 这 里 使 用 的 是 bs4 的 BeautifulSoup 过 滤 有 用 数 
据 。 第 50 行使 用 soup.find_all 函数 将 所 有 符合 条 件 的 数据 装 入 了 tagsli 列表 中 。 第 51~61 íT 
使 用 for 函数 遍历 整个 列表 ， 将 有 效 数 据 过 滤 出 来 ， 添加 到 items 列表 中 ， 供 下 一 个 函数 处 
FE 

第 64~70 行 把 得 到 的 items 列表 写 入 到 最 终 的 数据 保存 文件 “百度 贴吧 _ 权 利 的 游 
戏 .txt” 中 去 。 这 里 要 注意 的 是 第 65 行 ， 因 为 Win7 默认 的 是 GBK 编码 ， 而 文件 名 中 又 含有 
中 文字 符 ， 所 以 只 有 先 用 u 字符 将 字符 串 unicode w, HH encode(‘GBK’) 将 整个 字符 串 转 换 
成 GBK 编码 。 
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单独 


第 72~81 行 完 全 可 以 精简 成 一 句 ， 直 接 返 回 urllib2.urlopen(urD).read0 就 可 以 了 。 这 里 用 
一 个 函数 是 为 了 以 后 扩充 功能 。 比 如 使 用 proxy 代理 ， 添 加 headers 等 。 这 个 就 有 点 类 似 


于 Scrapy 框架 中 的 中 间 件 。 一 旦 发 现 仆 虫 被 蔡 止 ， 束 可 以 在 这 个 函数 中 做 出 相应 的 修改 ， 避 


开封 


6.3 


锁 。 这 里 要 注意 的 是 需要 将 URL 字符 串 转 换 成 utf8 编码 。 
第 84~86 行 是 _main 函数， 实例 化 GetTiebalnfo 类 。 


4 Eclipse 调试 


虽然 在 Windows 下 也 可 以 使 用 pdb 模块 对 Python 程序 进行 调试 。Pdb 的 强大 当然 是 无 须 


质疑 ， 但 直观 上 来 说 就 远 远 不 如 Eclipse 了 。 下 面 就 牛刀 小 试 ， 实 验 一 下 Eclipse 的 调试 功 


全 已 
HE o 


最 前 


功 。 


首先 要 做 的 是 在 程序 中 添加 断 点 ， 也 就 是 程序 运行 中 暂停 中 断 的 位 置 。 在 所 需 中 断 行 的 
方 ， 行 号 的 前 和 面 空白 处 双击 右键 ,会 出 现 一 个 绿色 气球 的 图 标 ， 表 明 断 点 已 经 设立 成 
这 里 只 在 41 行 和 60 行 设置 了 2 个 断 点 ， 如 图 6-40 所 示 。 


je NE = O- Qrie y 910) =. | 二 二 Quick Access 


I PyDev Package.. X = © P) getCommentinfo X [P] mylog 
B8&|l# v url = ‘=".join(ul) 
3 is urls.append(url) 
S pg self.log.info(u' szURLS #2") 
国 getCommentinfo.log 3 return urls 


D ， 
A RE spider(self, urls): 
> E) mylog.py 46 items = [] 
D 百度 贴吧 权利 的 游戏 .bd for url in urls: 
> @ D:\Program Files\python 8 htmlContent = self. getResponseContent (url) 
9 soup = Beautifulsoup(htmlContent, ‘Lxml n) 
o helloPython tagsli = soup.find_all('Li',attrs={'c 
O moiveBS4 ; for tag in tagsli: 
LJ qidian8S4 item = Item() 
- 3 item.title = tag.find(‘c’, attrs= {c - Et K 
W test item.firstAuthor = tag. find span’, aa ae 
LJ winningNumBS4 item.firstTime = tag. find( ‘span attrs= aes "su" 
W YinYueTaiBS4 6 item.reNum = tag.find( ‘span attrs={‘t tle’ su" =x" er 
item.content = tag.find( ‘div’, attrs={‘c : ‘thread 
item. lastAuthor = tag.find( ‘span’, attrs= C< : 'tb 
item.lastTime = tag.find( sp ae attrs={'t ar pepe 
items .append(item) 
self.log.info(u' eregx<<ts>>eeenr...' Sitem.title) 
return items 
m | r 


6-40 Eclipse 设置 断 点 
再 单 击 Eclipse 上 方 荣 单 栏 最 右边 的 爬虫 图 标 。 进 入 调试 模式 。 单 击 图 标 栏 的 爬虫 图 标 开 


始 调试 。 程 序 运行 到 断 点 处 会 自动 停止 运行 ， 单 击 图 标 栏 的 箭头 图 标 进行 单 步调 试 。 在 程序 
栏 中 的 箭头 指向 运行 的 位 置 。 可 以 在 变量 标签 中 观察 变量 的 值 。 测 试 完毕 后 可 以 单 击 图 标 栏 
的 停止 图 标 退 出 调试 ， 如 图 6-41 所 示 。 
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Search Project Pydev Run Window Help 
2\=Vietes Ss efjo-a-s6 %- 
debug Quick Access | g | & e ES 
{F Debug 5% | IY 7 B Variables 3 ə Breakpoints mo SUT Ue 
4 @ baiduBS4 getCommentinfo.py [Python Run] Value = 
4 P getCommentinfo.py n str: 50 
4 ¿@ MainThread - pid_5996_id_39811672 N <type 'list'>: ['0', '50', '100', '15... 
三 getUrls [getCommentinfo.py:38] > GetTiebalnfo: <_main_.GettTie... 
= _init_ [getCommentinfo.py:30] b pe 'list'>: [u'http://tieba. bai... 
= <module> [getCommentinfo.py:86] sm 。 unicode: http://tieba.baidu.com... 
= run [pydevd.py:937] 
= <module> [pydevd.py:1530] 


SE unicode: http://tieba.baidu.com/f?kw=ne/xee&ie=utf-3&pn=5e 
p getCommentinfo.py 


5 ———— 只 mylog 
ul = self.url.split('=') B x “a | p ~ 
er type fi filter text | 
urls.append(url) 4— urllib2 a 


self.log.info(u' #ZURLS #2") 4— BeautifulSoup (bs4) E 
return urls 4.. mylog = MyLog ti s 


4 | W j j 4 | m 


Ø Console X F Tasks S-~e X &* ®G@/ RE PeO 7 E- wi lod es a 
getCommentinfo.py 


pydev debugger: starting (pid: 5996) 


6-41 Eclipse 调试 


ACG log FER, BIE RE IT inl ell 8 ny DAR AY ST Be, AT EE 


G.L bs4 ERZ: 获取 双色 球 中 奖 信息 


在 国内 ， 唯 一 能 合法 欢 吓 的 方法 似乎 只 有 彩票 中 奖 了 。 虽 然 人 人 部 知道 中 奖 的 机 率 很 
低 ， 但 希望 总 是 存在 的 。 中 奖 的 号 人 码 虽 然 无 法 直接 推 得 出 来 ， 但 根据 概率 计算 将 中 奖 的 概率 
稍微 调 大 点 那 还 是 可 能 的 〈 据 说 所 有 赌场 都 有 这 样 一 条 海 规 则 ， 不 欢迎 数学 家 进入 赌场 ， 怠 
是 为 了 防止 客人 计算 概率 。 电 影 《 决 胜 21 点 》 束 是 根据 真实 事件 改 屿 ， 而 历史 上 最 出 名 的 因 
概率 计算 被 赌场 禁止 入 场 的 人 是 日 本 的 山本 五 十 六 ) 。 在 进行 概率 计算 前 要 做 的 就 是 收集 数 
好 在 中 国 福利 彩票 并 不 茶 止 收集 数据 进行 概率 计算 。 如 何 计算 概率 不 是 本 草 的 内 容 ， 本 

草 只 负 贡 将 数据 收集 后 存 入 到 数据 库 中 。 


6.4.1 目标 分 析 


在 中 彩 网 中 打开 双色 球 的 往 期 中 奖 信 息 页 面 〈 这 里 使 用 的 是 Chrome ities, HA HXI 
览 器 可 能 会 稍 有 区 别 ) 。 网 址 为 http://www.zhew.com/ssq/kaijiangshuju/index.shtml?type=0, 
如 图 6-42 所 示 。 


207 


Python Mig ER KAR 


€ Œ DD www.zhcw.com/ssq/kaijiangshuju/index.shtml?type=0 


中 彩 网 首页 | 网 站 地 图 | 日 手机 中 彩 网 | 客户 应 登录 


彩票 新 闻 NG ”专题 报道 双色 球 RAF BEX AAR if 彩民 之 家 站 主 É 
投注 大 赛 Mm ”行业 数据 福彩 30 试 机 号 全 国 开奖 EA Æ 福彩 公益 AT 3 
中 彩 视频 Eis 开奖 视频 the HERE 地 方 彩 种 。 时 时 彩 ORG 省 市 之 窗 “上 长春 


= 
© cp 中 彩 网 yX 色 球 HUES | 红 球 除 4 余数 图 。。 ”历史 同期 号 查询 
WJ 首页 REE MAS 号码 分 析 双色 球 图 表 计算 器 开奖 数据 ”双色 球 新 闻 PZA 走 近 7 


往 期 回顾 | 开奖 公告 传真 | 出 球 顺 序 传真 | 当期 销量 及 中 奖 情况 | 各 期 销量 前 五 名 | Sed 


5e aa 


EEE 
开奖 日 期 We : BERG) — 
2016-06-30 2016075 AA AMA AA 25.57406 
2016-06-28 2016074 PARA 297,584,738 
2016-06-26 2016073 MAMMA A = 27,032,018 


2016-06-23 201672 MAPMAMAA® 290, 670, 126 
6-42 ”双色 球 往 期 中 奖 


在 中 奖 信息 表格 上 女 标 右 击 ， 选 择 弹 出 菜单 中 的 “查看 框架 的 源 代码 ”。 发 现 这 个 框 染 
的 数据 来 源 于 kaijiang.zhcew.com/zhcew/html/ssq/list 1..html， 如 图 6-43 所 示 。 


C | D view-sourc¢kaijiang.zhcw.com/zhcw/html/ssq/list_1.htm! 


<table width="718" border="0" cellspacing="0" cellpadding=“0" class=“waqhgt"> 
<tr style=" background: url (http://images. zhew. com/zhew2010/kaijiang/zhew/ ssqpd_28. jpg) repeat-x ;"> 
<th width="83" rowsparF"2"> 开 奖 日 期 th》> 
<th width="64" rowsparF*2"> 期 号 《rthy> 
《th width="203" rowspanm= 2" > 中 奖 吕 码 《Ath> 
<th width="92”rowsparc"2"》 销 售 额 (元 ) 《th>》 
<th colspan=“ 2 > 中 关注 数 CAtlvm 
《th width="65" rowspare*2”>1#49</th> 
</tr> 
<tr> 
<th width="135" style="color: #F00">—#42</th> 
<th width="45" style="color :#00F* > 二 等 奖 </th> 
</tr> 


align=" cert er >2016-08-16</td> 


align=" cert er” >2016095</+ dD 
align="center” style“padding-left: 10px :“> 


<em class=" rr">01</em> 
<em class=" rr“>05</ em> 
<em class=" rr“>09</em> 
《em class=" rr“>12</em> 
《em class=" rr">18</ em> 
<em class=" rr">32</ em> 


<em>12</em </td> 
<td><st rong>297,413, saan seco 


( 浙 头 粤 深圳 .. 


图 6-43 ”框架 源 代码 
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然后 再 到 网 页 中 单 击 “下 一 页 ”的 链接 ， 再 次 查看 框 染 源 代 码 ， 新 的 框架 数据 来 源 是 
kaijiang.zhcw.com/zhew/html/ssq/list_2.html. ABA A URL 的 变化 规律 了 ， 再 回头 测试 一 下 
kaijiang.zhcw.comy/zhcw/htmlssq/list 1.html EVIE, EAE m” WA 6-44 所 示 。 


e C į D kaijiang.zhcw.com/zhcw/html/ssq/list_1.html 


开奖 日 期 
2016-08-16 
2016-08-14 
2016-08-11 
2016-08-09 
2016-08-07 
2016-08-04 
2016-08-02 
2016-07-31 


2016-07-28 


期 号 
2016095 
2016094 
2016093 
2016092 
2016091 
2016090 
2016089 
2016088 


2016087 


ALS 销售 额 元) 
ABMADHA® zruz 7 Gia S Fl 
AAPPBBA EA zias 4 0S Fl BY 
D E $ 298,416,216 
从 从 从 内 风骨 的 239,92,38 
AAMAAMAGD vn 
AAMAAMAC = 24,000,068 TE, 
AAMAAAAB | 283,232,37 # 辽 
AMAR AAB wos 5 iz i 8K 
CAAMA 20,350 3 em 


图 6-44 表格 来 源 网 页 


再 来 看 看 如 何 获 取 表 格 中 的 数据 。 任 选 一 个 双色 球 往 期 中 奖 号 码 的 框架 俘 看 源 代码 ， 这 
里 就 选 未 页 kaijiang.zhcw.com/zhcw/html/ssq/list 100.htm， 如 图 6-45 所 示 。 


D view-source:kaijiang.zhcw.com/zhcw/html/ssq/list_100.html | 


<tr> 


<td align="center” >2003-04-10</td> 

<td align=" cent er”>2003014</t d> 

<td align="center” style="padding-left: 10px ;”> 

<em class=" rr“>03</ em> 

<em class=" rr“>05</ em> 

《em class=" rr“>07</em> 

<em class=" rr“>08</ em> 

<em class=" rr“>21</em> 

<em class=" rr“>31</ em> 

<em>02</em </td> 

<td><st rong>12, 476, 130</strong></td> 

<td align="left” style=“color:#999;“><strong>0</strong> 
<td 

<td align="certer”><strong class="re" >0</st rong></t dD 


<td align="center"> 
<a href="http://www. thew. com/ssq/kjgg/" target="_blank” ><img src“http 


width=g 16" height="16" aligre“absmiddle” title"“i##(BB’/></m> 


+ MA 
to 
</tr> 


<a href="http://www. zhew. com/video/kaijiangshipin/” target="_blank" ><ifle 
image how2010/kaijiang cw ssqpd 43. jpg” width=“16" heig§t=" 


ml 


l 


<tr> 


<td align="center” >2003-04-06</td> 
<td align=" cert er >2003013</t dD 


6-45 ”分析 数据 


在 做 息 虫 时 ， 遇 到 这 种 表格 形式 的 数据 ， 那 就 最 方便 了 。 因 为 它们 都 有 固定 的 标签 ， 可 
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以 很 方便 地 获取 数据 。 从 图 6-45 中 可 以 看 出 ， 表 格 中 每 一 行 的 数据 都 包含 在 一 对 <tr> 标 签 
内 。 所 以 ， 在 写 仆 虫 时 只 需要 先 将 <t> 标 签 挑选 出 来 ， 然 后 再 到 其 中 过 小 数据 束 可 以 了 。 


6.4.2 项目 实施 

【示例 6-5】 还 是 打开 Eclipse， 按 照 上 节 创 建 项 目 、 文 件 的 流程 进行 。 首 先 创建 项 目 
winningNumBS4， 在 项 目 中 创建 PyDev Module 文件 getWinningNum.py， 再 把 上 节 baiduBS4 
项 目 中 使 用 过 的 mylog.py 复制 到 winningNumBS4 项 目 中 ， 以 备 后 期 调用 。 项 目的 主 文件 
getWinningNum.py 的 内 容 如 下 : 
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项 目 中 mylog.py 的 内 容 如 下 : 


| 6 Beautiful Soup Ms 


Python Mż Me E EAR 


鼠标 左 键 选 取 项 目 文件 getWinningNum.py， 然 后 左 键 单 击 Eclipse 的 运行 图 标 并 复制 ， 
最 终 得 到 结果 如 图 6-46 所 示 。 


Window Help 
oa Pal Wy | 8 | & O+ 
Poe edage. 23 ZEEE, | Amc B Ren 人 人 SD 
12 18 


Bagig = 1 2016-08-16 2016095 297,413,702 

ane 2 2016-08-14 2016094 324, 311,584 
4  winningNumBs4 3 2016-@8-11 2016093 298,416,216 
getWinningNum.log 4 2016-08-09 2016092 299,992,386 

P) getWinni 5 2016-08-07 2016091 329,710,234 

4 E 6 2016-08-04 2016090 294,008,068 
> [E] mylog.py 7 2016-08-02 2016089 288,232,376 
8 2016-07-31 2016088 320,354,148 
双色 球 .bd 9 2016-07-28 2016087 288,396,896 
10 2016-07-26 2016086 286,788,850 

> @ D:\Program Files\python 11 2016-07-24 2016085 319,888,112 
W baiduBS4 12 2016-07-21 2016084 288,778, 286 
@ helloPython 13 2016-07-19 2016083 291,921,542 
ee ee 14 2016-07-17 2016082 323,658, 370 
moive 15 2016-07-14 2016081 288,505,018 

Ø qidianBS4 16 2016-07-12 2016080 288,372,472 
eee 17 2016-07-10 2016079 322,821,956 
: 18 2016-07-07 2016078 296,681,554 
G YinYueTaiBS4 19 2016-07-05 2016077 294,629,008 
20 2016-07-03 2016076 331,977,974 
21 2016-06-30 2016075 295,574,016 
22 2016-06-28 2016074 297,584,738 
23 2016-06-26 2016073 327,032,018 
4 $ 


© Console 3 Pù PyUnit exeQaelBaRPEE Ww S&-m-coa 
<terminated> E:\save\sync\code\crawler\bs4Project\winningNumBS4\getWinningNum.py 


RPNMVN OW UW 
ru 


pà 


N 


79 
84 
62 
24 
18 
99 

8 
3 73 
4 88 
2 10 
6 65 
3 93 
6 11 
8 65 
1 
80 


wm OF 
N 
R 


WP 


6-46 run getWinningNum.py 


MTA HE MEAG RARE txt 文件 中 。winningNumBS4 项 目 暂 时 告 一 段落 ， 下 节 
继续 挖掘 。 


6.4.3 保存 结果 到 Excel 
在 Windows 下 ， 最 常见 的 数据 保存 工具 是 Excel。 下 面 尝试 将 结果 保存 到 Excel PH. 
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在 Python 的 标准 库 中 ， 并 没有 直接 操作 Excel 的 模块 。 好 在 还 有 永远 不 会 让 人 失望 的 第 
三 方 库 。 百 度 一 下 最 流行 的 操作 Excel 的 Python 库 就 是 xlrd 和 xlwt 了 。 其 中 xlrd 负责 从 
Excel 中 读 取 数据 ， 而 xlwt 则 是 将 数据 写 入 到 Excel 中 去 。 这 里 我 们 使 用 xlwt 模块 。 

从 第 三 方 库 中 安装 xlwt 模块 很 简单 ， 一 条 命令 足 闫 。 执 行 命 令 : 


执行 结果 如 图 6-47 所 示 。 


icrosoft Windows [hgR 本 6.1.7601] 
权 所 有 <c) 2089 Microsoft Corporation. 保留 所 有 权利 。 


:Wsers\king>pip install xlwt 
ollecting xlwt 
Downloading xlwt-1.1.2 _ —none-any.whl C99kB> 


i 49kB 48kB/s eta @:00:02 
! 51kB 48kB/s eta 8:08 

! 61kB 57kB/s eta @ 

! 71kB 48kB/s et 

! 81kB 55kB/ 

! 92kB 54 

W: 102k 


Successfully installed xlwt-1.1.2 


6-47 ”安装 xlwt 模块 
至 此 xlwt 模块 已 安装 完毕 。xlwt 模块 使 用 很 简单 。 


【示例 6-6】 先 写 一 个 人 简单 的 Python 程序 来 测试 一 下 。 在 Eclipse 中 创建 一 个 test 项 目 ， 
并 在 项 目 中 创建 一 个 名 为 excelWrite.py 的 PyDev Module 文件 。excelWrite.py 的 内 容 如 下 : 


很 简单 的 一 个 程序 。 首 先 使 用 xlwt Workbook 函数 创建 一 个 工作 每 ， 如 果 有 中 文 最 好 是 
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aT AE SCA FE I. Ra FEES PES HE, FE TE EAA BS. 4A, 
HERBIR E. Sita tae PRA LEE EY PEPE. 
单 击 Eclipse 的 运行 图 标 ， 得 到 的 结果 如 图 6-48 Pras. 


H pyDev Package.. X ° B E 
BS|% y 
4 gÈ test 


b [P] excelWrite.py 


x Jema og 


B IU~*+ AA 
= | Sec. 
> @ D:\Program Files\python 
4 (3 winningNumBS4 
getWinningNum.log 
> [P] getWinningNum.py 
> |B) mylog.py 


双色 球 .txt 
> @ D:\Program Files\python 


6-48 测试 xlwt 模块 


根据 getWinningNum.log 的 实际 情况 〈 也 就 是 程序 输出 数据 的 形式 ) ， 将 excelWrite.py 
稍 做 变化 就 可 以 用 了 。 回 到 winningNumBS4 项 目下 ,创建 一 个 新 的 PyDev Module 文件 
save2excel.py、 save2excel.py 和 getWinningNum.py 是 在 同一 目录 下 的 (这 点 很 重要 ， 如 果 不 
在 同一 目录 下 ，getWinningNum.py 想 把 save2excel.py 当 模 块 使 用 会 费 很 多 功夫 ) 。 


【示例 6-7】Sava2excel.py 的 内 容 如 下 : 


216 


#6 Beautiful Soup ME H 


; id 6-8】 将 原来 的 getWinningNum.py 稍 做 修改 ， 修 改 后 的 getWinningNum.py 的 内 容 
IP: 


Python PMR SAK ) 
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Python p28 E EAk 


实际 上 就 是 导入 了 save2excel 模块 后 再 在 _init 函数 中 添加 了 377, LE save2excel 处 理 


了 一 下 疏 取 的 数据 而 已 。 
单 击 Eclipse 图 标 栏 的 运行 图 标 ， 最 终 得 到 的 结果 如 图 6-49 所 示 。 


HE PyDev Package.. 53 = O (F) getWinningNum P) mylog 
agS|# > 
4 (4 winningNumBS4 
getWinningNum.log , U 8 sig! «Seay e 
b —— % Arial -|10 zi | 要 |  % Bam- 
—— W- BIU- AR 二 二 PANEER 
save2excel.py 粘贴 a 对 齐 方 式 | 数字 | _ 
B 双色 球 bd EE] » G-A- |T- > ~ Pane 
a) 双色 球 .xls 


> @ D:\Program Files\python 
Ø baiduBs4 


@ helloPython 
LI moiveBS4 
Ø qidianBS4 
D test 

Ø YinyueTaiBS4 


12 2003-02-2272003001 [ 


39:40,186 INFO king SRE: 2015-08-09 neato 


39:40,187 INFO ane EMER: 2015-08-06 EEAS 
4 


6-49 ”保存 结果 到 excel 
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F, 2 
DE 
© Console X F: Punt ë © X %9 a eMAG renen 
<terminated> E:\save\sync\code\crawler\bs4Project\winningNumBS4\getWinningNum.py 


39:40,184 INFO king BRERA: 2015-08-11 aetna 


[>| 
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et, winningNumBS4 项 目 己 全 部 完成 。 这 里 要 注意 的 是 ， 不 要 频 索 地 跑 这 个 爬虫 ， 在 
一 定 的 时 间 内 多 次 爬 取 会 引起 网 站 反 爬 虫 人 员 的 注意 。 得 到 数据 就 够 了 ， 没 必要 耗费 网 站 的 
网 络 资源 。 


6.4.4 代码 分 析 

winningNumBS4 项 目 中 只 有 3 个 Python 文件 ， 分 别 是 getWinningNum.py, save2excel.py 
和 mylog.py。 其 中 mylog.py 和 上 个 项 目 中 的 mylog.py 是 一 样 的 (实际 上 所 有 的 项 目 中 使 用 
的 都 是 同一 个 mylog.py) ， 这 个 可 以 略 过 。 主 要 是 看 主 文件 getWinningNum.py 和 
Save2excel.py。 

先 看 getWinningNum.py 文件 。 第 10~14 行 是 导入 程序 所 需 的 模块 。 其 中 包含 了 Python 
标准 模块 和 目 定 义 模块 。 顺 便 演示 了 导入 模块 的 几 种 方式 。 

第 17~29 行 定义 了 一 个 类 。 这 个 类 包含 了 获取 数据 的 所 有 项 。 这 种 写法 借鉴 了 Scrapy 的 
items 的 写法 。 第 31~105 行 定 义 的 模块 负责 获取 数据 和 保存 数据 。 其 中 34~42 行 是 类 的 解析 
图 数 (Python 是 没有 解析 函数 这 个 概念 的 ， 但 _init 函数 所 起 的 作用 基本 上 就 是 解析 函数 
T) 。 当 类 实例 化 时 就 自动 运行 _init PKA. 

第 45~56 行 的 getUrls 函数 作用 就 是 从 网 站 中 获取 所 有 需要 扑 取 的 网 页 的 URL， 然 后 将 
这 些 url 加 入 到 urls 列表 中 去 ， 以 备 后 面 的 图 数 调用 。 第 58~67 行 getResponseConent 图 数 作 
用 就 是 从 一 个 url 中 获取 数据 。 这 个 函数 可 以 用 一 句 话 代 蔡 ， 之 所 以 写成 函数 是 为 了 加 入 
headers 和 proxy 方便 。 

第 70~97 Fy EE AME MAH, AMY Be RAF BI items 列表 中 供 后 和 面 的 函数 
调用 。 第 99~105 行 pipelines 函数 将 items 列表 中 的 数据 写 入 txt 文件 中 。 那 么 将 数据 写 入 
Excel 是 哪个 图 数 呢 ? 是 在 第 41 77, Minit 图 数 中 调用 了 save2excel 模块 中 的 
SaveBallDate pki ŽL. 

最 后 的 第 108~109 77 EE eH, “EE SE HK ~GetDoubleColorBallNumber 类 。 使 
GetDoubleColorBallNumber 类 的 _init ”函数 目 动 运行 。 

至 于 save2excel.py 就 比较 简单 了 。 第 9 行 导 入 了 xlwt 模块 。 第 13~14 行 初始 化 了 类 变 
量 ， 调 用 类 函数 。 第 17~49 Fr MALI fe PA items 列表 ， 然 后 将 列表 中 的 数据 保存 到 
Excel 中 去 。 稍 微 要 注意 的 是 第 18 行 ， 因 为 是 Windows 系统 ， 默 认 使 用 GBK 字符 编码 。 如 
果 不 希 望 中文 文 件 名 出 现 乱 码 ， 那 就 将 含有 中 文 的 文件 名 转换 成 GBK 编码 。 


bs4 爬虫 实战 三 : 获取 起 点 小 说 信息 


现在 娱乐 消费 好 贯 。 最 便宜 最 方便 的 娱乐 消费 葛 过 于 在 网 上 看 小 说 了 《网 洲 还 需要 充 
值 ， 看 电影 一 次 人 至少 两 小 时 ) ， 看 小 说 就 绕 不 开 原 创 中 文 小 说 网 站 一 一 起 点 中 文 。 笔 者 看 小 
说 不 吾 欢 那 种 看 一 草 等 一 革 的 看 法 ， 说 不 定 一 不 小 心 小 说 就 天 折 了 ， 还 是 直接 看 那些 完 本 小 
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说 比较 爽快 。 本 节 将 使 用 bs4 疏 虫 获取 起 点 中 文 网 所 有 的 完 本 小 说 信息 ， 并 将 其 保存 到 
MySQL 中 去 。 


6.5.1 目标 分 析 


打开 起 点 中 文 网 ， 搜 索 所 有 的 完 本 小 说 。 将 打开 网 页 http://all.qidian.com/Book/BookStore. 
aspx?Channelld=- 1 &SubCategoryld=- 1 &Tag=all&Size=-1 & Action=5&Orderld=6&P=all& PageIndex= 
1&update=-1&Vip=-1&Boutique=-1l&SignStatus=-1， 在 网 页 中 将 写作 进度 改 成 “已 经 完 本 ”， 
其 他 的 选项 都 选择 “不 了 上限” 或 者 “ 鸭 认 ”， 如 图 6-50 所 示 。 


作品 大 类 : 全 部 24) 74) 武侠 仙 侠 都 市 历史 FS 游戏 体育 科幻 灵异 二 次 元 BX 职场 文学 女生 Ee 


全 部 

作品 标签 : PNET Si) W. am 特工 Fe 明星 特种 E 杀手 老师 FE 医生 Bh 宅男 BG 
全 部 显示 

作品 字数 : FSB] 30 万 以 下 30 万 -50 万 。 50-100 万 。 100 万 -200 万 ”200 万 以 上 


写作 进度 : AR ”新 书 上 传 ”情节 展开 eS Mie 

排序 方式 : PSA] 会 员 周 点 击 会员 月 点 击 。 会 员 总 点 击 ”局 推荐 Ale Site ”总 字数 he ” 书 友 周 点 击 PRAAG 。 书 友 总 点 击 
更 新 时 间 : | ARE 三 日 内 七 日 内 半月 内 一 月 内 

书 名 首 字母 :〗 AREA] [B] [c] [D] [E] [F] [6] Œ] [I] [J] [K] [L] CW] [W] [ol [P] [Q] [R] [s] [T] [v] [v] w] [x] Y] Z] 其 他 
Hema: | 不 限 中 只 看 免责 作品 只 看 VIP 作品 ABMS Halk 


6-50 ”选择 小 说 类 型 


再 来 看 看 URL， 这 个 参数 似乎 太 多 了 上 点。 仔细 观察 一 个 ， 这 个 参数 可 能 跟 小 说 的 关 型 选 
择 有 关系 。 每 次 削减 一 个 参数 试 试 页 面 是 否 有 变化 ， 最 后 发 现 URL 为 
http://all.qidian.com/Book/BookStore.aspx?&Tag=all& Action=5 &Orderld=6&P=all& PageIndex=1 
时 页 和 面 是 不 变 的 ， 可 以 正常 使 用 。 

下 面 将 这 个 URL 中 的 PageIndex=l 改 成 PageIndex=2 ih ih. Wl bt AS HFT FF 
http://all.qidian.com/Book/BookStore.aspx?& Tag=all&A ction=5& Orderld=6&P=all&PageIndex=2, ý 
面 也 没什么 问题 ， 返 回 也 是 正和 的 ， 那 么 所 再 爬 取 页 面 的 urls WR SS, MA 
PageIndex 参数 而 已 。 

总 共 再 要 疏 取 多 少 页 呢 ? 碍 看 页 面 中 表格 下 方 的 页 面 选择 位 置 ， 共 有 144 页 ， 如 图 6-51 
所 示 。 

[灵异 /恐怖 惊悚 】 红 印 梦 2571 RASH 16-08-12 11:35 
[科幻 /进化 变异 】 CESR 第 十 五 章 多 重 人 格 分 裂 症 50283 离 枯 16-08-19 17:15 
[科幻 /时 空 穿 模 ] FRAARNSRRA 完 本 感言 114461 WERA 。 18-08-10 09:34 


[都 市 / 异 术 超 能 ] 校园 正太 高 手 完 本 感言 ! [v] 3513327 日 月 当 歌 16-08-17 09:55 


图 6-51 总 页 数 
在 网 页 的 任意 衬 昌 处 右 击 ， 选 择 弹出 菜单 中 的 “得 看 网 页 源 代 码 ”， 找 到 表格 的 开头 部 
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分 ， 如 图 6-52 所 示 。 


列表 开始 《1 [endif] 一 > 
div class= swz >101</div><div class="swa">[<a href="http://all, qidia. com Book/BookStore, aspx Chamel Id=4“ 

class="hui2 a ="http://all. qidian. com Book/BookStore. aspx?ChannelId=4kSubCat egoryld=74" class="hui2" > 异 木 超 能 <7a>] </ div><div 
class=" swb” ><span class=" stbt"><a href="http:// www. qidian. com/Book/ 1003682218. aspx” target="_blank” >HES RE </a> </spanr><a 
href="http:// read. qidian com BookRe ader/8UUQocy4n5POWWeyz P qUQ2, jbpppkBNR9VOBDF lr 9quQA2. aspx" — aoe class="hui2"》 第 三 十 五 章 尾声 《</a> 
</div> <div class=" swc" >29618</diw><div class="swd" ><a href="http://me. qidian. com/aut hoxyIndes aspx? d=7838379" target="_blank” 
class="black” aN FH </ad</div> <div class=“swe">16-08-16 18: 34</div> </ divi div class=’ swz’>102</div><div 
class=" swa">[<a href="http://alL. qidian. com/Book/BookSt ore. aspx Channel Id=21" class=" hii2"> 
href=“http://all. gidian. com/Book/BookSt ore. aspx Channel Id=2 l& SubC at egoryld=8" class=" hui2”" ) 东 方 玄幻 </ a)</div><div class=“swb"><span 
class=" swbt* ><a oe spi giin. eee es aspx” target=" blark” > 符 道 至 圣 w ay </spar><a rel="nofollow" 

`: sader. qi on/BookReas 0, 368 3 i “blank” class=“hui2">B=B/)\+ 08 天 外 天 (大 结局 ) </a> <span 

gt"> [VIP]</sparo </div> "<div = a pee "\774494¢/div><div class="swd"><a href="http://me. qidian com author Index. aspx?id= 3887914" 
target=" Plak class="black" >R BERS </a></div> <div class=“swe">16-08-15 12:43</div> </div><div class=" sw2" ><div 
class=" swz’ >103</div><div class=" swa” )[<a href=“http://al1. qidia. com/Book/BookSt ore. aspx Charnelld=12”class="hui2"》 二 次 元 /<a 
href="http://alL. qidian. com/Book/BookSt ore. aspx Charnel Id=1 24 SubCat egoryId=281" class=" wi? >t BA</a]</div><div class=“swb"><span 
class=" swbt"><a href=“http://www. gidian. com/Book/ 3676971. aspx”target="_blank“》 假 面 骑士 之 降临 绝世 唐 门 《4a> </spar><a 
href="http://read. qidian. com/ BookReader/bKeiJULyZH41, lgzrGq8PryfllsSiqloQwLQ2. aspx” target=” blank”class="hui2"》 作 品 相 关 新 书 上 架 《/a> </div> 
<div class="swe"»82090</div><dv class=“swd"><a href="http://me. qidian. com author Index. aspx ?id5122195" target="_blank” class="black” > 绝世 
ghos. .. </a</diw> <div class=“ swe“ >16-08-14 21:01</div> </div><div class=“swl"><div class= swz’ >104</div><div class=“ swa >[<a 
href="http://all. qidian. com/Book/BookSt ore. aspx Charnel Id=9" class="hui 2 >#}4)</a>/<a href="http://all. qidian. com/Book/BookSt ore. aspx? 
Channel Id=9&SubCategoryId=253" = class=“hui2" > 末世 危机 </a>] </div><div class="swb" ><span class=" swbt “><a 
href="http:// we. qidian. com/Book/ 1003742452. aspx” target="_blank” ) 末 世 之 灭 尸 系统 《/a> spana 


图 6-52 表格 源码 


表格 的 所 有 行 不 是 以 <div class="sw2"> 开 头 ， 了 驶 是 以 <div class="swl"> 开 头 。 没 问题 ， 
怕 没 有 规律 的 ， 不 怕 规 律 多 的 。 已 知 url 的 数量 和 规律 ， 也 知道 了 寻找 表格 数据 的 方法 。 
个 爬虫 已 经 完成 一 半 了 ， 后 和 面 纯粹 就 是 编程 的 问题 ， 那 就 简单 了 。 


sé 并 


6.5.2 项目 实施 


打开 Eclipse， 创 建 项 目 qidianBS4 ， 在 项 目 中 创建 PyDev Module 文件 
completeBook.py。 把 上 节 winningNumBS4 项 目 中 使 用 过 的 mylog.py 复制 到 qidianBS4 m A 
中 ， 以 备 后 期 调用 。 


【示例 6-9】 项 目的 主 文件 completeBook.py 的 内 容 如 下 : 
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主 程序 部 分 已 经 完成 了 。 


6.5.3 ”保存 结果 到 MySQL 
因为 最 后 还 需要 将 结果 保存 到 MySQL 中 去 ， 所 以 还 得 添加 一 个 自 定 义 的 模块 (也 就 是 
一 个 自 建 Python 程序 ) 。 


【示例 6-10】 在 qidianBS4 项 目下 ，completeBook.py 的 同 级 目录 中 创建 一 个 PyDev 
Module 文件 save2mysql.py。save2mysql.py 的 内 容 如 下 : 
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至 此 ， 该 项 目 中 的 所 有 代码 已 经 完成 了 。 因 为 要 将 数据 保存 到 远程 MySQL 服务 器 ， 首 
先 得 在 MySQL 服务 器 上 创建 好 数据 库 和 表 。 在 第 $ 章 Scrapy 项 目 中 就 创建 过 一 个 MySQL 
服务 器 ， 并 分 别 在 Windows 和 Linux 系统 上 安装 了 Python P< MySQL 的 模块 
MySQLdb。 这 里 就 直接 使 用 现成 的 MySQL 服务 器 就 可 以 了 。 与 Scrapy 项 目 不 同 的 是 ， 本 节 
存储 数据 到 MySQL 服务 器 是 远程 存储 ，Scrapy 项 目的 存储 是 本 地 存储 。 本 机 与 MySQL 服 
Ss aN KA WR 6-53 所 示 。 


IP:192.168.2.99 IP:192.168.2.80 
PC Linux MySQL Server 


K 6-53 网络 关 系 图 
使 用 putty 登录 到 Linux. PEA MySQL 为 bs4 项 目 创建 一 个 数据 库 ， 并 为 qidianBS4 项 
目 创建 一 个 表 。 
在 Linux 系统 下 登录 到 MySQL 后 ， 执 行 命令 : 


创建 一 个 名 为 bs4DB 的 数据 库 ， 并 在 数据 库 中 建立 一 个 qiDianBooks 的 表 ， 所 有 编码 都 
使 用 utf8 编码 ， 执 行 结果 如 图 6-54 所 示 。 


227 


Python MERKA 


Copyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved. 


Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
owners. 


Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. 


mySsql>§CREATE DATABASE bs4DB CHARACTER SET ‘utf&" COLLATE ‘utf& general Ci'; 


Query OK, 


Databas 


-> 有 ia INT AUTO_INCREMENT, 
->f categoryName char(20), 
->f bookName char (20), 
->§wordsNum char (10), 

->f updateTime char (20), 
->f authorName char (20), 


6-54 ”创建 数据 库 和 表 
随后 为 登录 用 户 分配 权 限 ， 执 行 命令 : 


执行 结果 如 图 6-55 所 示 。 


mysql> 
mysql> GRANT all privileges ON bs4DB.* to crawlUSERG@all IDENTIFIED BY 'crawli23' 


Query OK, 0 rows affected (0.00 sec) 


jmysql> GRANT all privileges ON bs4DB.* to crawlUSERG@Glocalhost IDENTIFIED BY 'cra 
affected (0.00 sec) 
privileges ON bs4DB.* to crawlUSER@192.168.2.99 IDENTIFIED BY ' 


affected (0.00 sec) 


6-55 MySQL 用 户 权限 


这 三 条 命令 的 作用 分 别 是 : 允许 crawlUSER 用 户 远程 登录 ， 人 允许 crawlUSER 用 户 本 地 
登录 ， 人 允许 crawlUSER 从 192.168.2.99 这 个 IP 登录 。 

这 里 需要 说 明 的 是 ，crawlUSER 这 个 用 户 在 Scrapy 项 目 中 已 经 创建 过 了 ， 如 果 没 有 创建 
这 个 用 户 ， 则 需要 在 MySQL 中 执行 命令 : 
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MySQL 服务 器 已 经 准备 好 了 ， 可 以 运行 程序 了 。 单 击 Eclipse 图 标 栏 上 的 运行 图 标 ， 执 
行 该 项 目 ， 得 到 的 结果 如 图 6-56 所 示 。 


Ba Srey 
| File Edit Navigate Search Project Pydev Run Window Help 
PTS J ie ye Or DE- w vie isl iiviv gly tv 


B 起 点 完 本 小 说 .txt 2 
lrun time: 2016-08-17 20:16:16 
2[ma2x/eeneee] Se ER 1292425 

3 [4en/xHaars) EEEE D 3305823 
4 [sasaa] a 

5 [ens/ee ee | Rie ser eae 

6 [šer/ 2mm] RUE 773861 
7 [ses/Sesees)] aes 218772 
8 [Mee/semeesr] geek a(s) 


. A 
Quick Access |. 


日 [P] completeBook 


16-08-17 18:35 
16-08-17 18:00 atan 

97083 16-08-17 15:20 š 

2066407 16-08-17 14:22 è 

16-08-17 13:19 ais 

16-08-17 09:54 eE E 
1070333 16-08-17 03:10 anes 
9 (see/Sesees)] seuseeei eye 1159573 16-08-16 23:11 mk i 
10 [(#58/f2Fens] s2anze 645131 16-08-16 22:01 MARAR 
11 [asais] Hatest_etees etree esx 142200 16-0 
12 [usa usns] sni manae 1208686 16-08-17 10:03 
13 [Nee/Eeeese] s+ ena | 601608 16-08-17 09:51 


4 GB qidianBS4 oe 


A completeBook.log 
> [P] completeBook.py 
> [P] mylog.py 
> [P] save2mysql.py 
D 起 点 完 本 小 说 .bd 
> @ D:\Program Files\python 
D baiduBs4 
LI helloPython 


6-56 run completeBook.py 


保存 到 本 地 的 文件 内 容 有 乱码 ， 是 不 是 ?没关系 ， 用 Windows 目 带 的 记事 本 打开 就 没有 
了 ， 只 是 编码 问题 。 再 来 看 看 保存 到 远程 的 MySQL。 使 用 pytty 登录 到 Linux， 连 接 到 
MySQL 服务 器 后 ， 在 MySQL 里 执行 命令 : 


use bs4DB; 
select * from qiDianBooks; 


执行 的 结果 如 图 6-57 所 示 。 


| 8572 16-06-28 14:28 | yangch... 
12388 | [武侠 /传统 武侠 ] | KFS 

| 6519 16-06-28 14:28 | Z FEM 
12389 | [玄幻 /东方 玄幻 ] | 另类 


| 88016 
[都 市 /都 市 生活 ] 


| 7320 
[都 市 /青春 校园 ] 

| 5398 
(REREH) 

| 792 
[职场 /娱乐 明星 ] 


| 1799849 


[武侠 /武侠 幻想 ] 
| 2045 
PE E 


19017 
[科幻 /未 来 世界 ] 


| 43686 


12390 


12391 


12392 


12393 


12396 rows in set (0.06 sec) 


mysql> q 


16-07-12 13:56 | 宋 达 威 
| 血色 婚纱 
16-06-28 14:28 | 晚秋 .ao 
| 穿 红 内 裤 的 男 老师 “ 
16-06-28 14:28 | 柳 三 变 1 
| 华山 论 情 
16-08-03 17:56 | WAŻ Ù 
| 大 部 传说 
16-07-18 15:31 | FRAR 
| 桃花 疼 
16-06-28 14:28 | HE 
| BERRI 
16-06-28 14:28 | 龙 神 将 .QD 
| A HAE) 
16-06-28 14:28 | 龙 神 将 .QD 


图 6-57 MySQL 保存 结果 
保存 的 结果 是 12396 条 ， 而 网 站 上 显示 所 有 的 全 本 小 说 是 14380 A, KAA 2000 本 小 说 
没有 被 录 上 。 稍 微 修改 一 下 程序 ， 可 以 从 log 中 得 到 哪些 小 说 没有 被 爬 取 。 笔 者 大 致 检查 了 
一 下 ， 有 一 些小 说 记录 的 标签 与 笔者 设置 的 标签 不 太一 样 ， 如 果 需 要 读 取 完整 的 列表 请 读者 
自行 修改 一 下 。 另 外 这 个 程序 的 瑕 疲 在 于 MySQL 保存 数据 时 使 用 的 都 是 char 类 型 ， 如 果 要 
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追求 完美 ， 可 以 将 日 期 改 成 Date 类 型 ， 将 字数 改 成 int 类 型 等 。 


6.5.4 代码 分 析 


mH qidianBS4 中 有 3 个 Python 程序 ， 其 中 mylog.py 无 须 再 解释 了 ， 这 里 需要 分 析 的 只 
有 completeBook.py 和 save2mysql.py. 

completeBook.py 中 第 9~15 行 是 导入 需要 的 模块 。 第 18~24 行 是 仿照 Scrapy 建立 的 一 个 
item 类 。 第 27~90 行 是 自 定义 类 GetBookName， 用 于 从 起 点 中 文 网 站 获取 全 本 小 说 的 信息 。 

第 27~37 行 是 GetBookName 类 的 “解析 函数 ”。 第 33 行 调用 了 spider 类 函数 将 所 有 的 
数据 保存 到 类 变量 self.booksList 列表 中 。 第 34 和 36 行 分 别 调用 了 self.pipelines 函数 和 
SavebookData 国 数 ， 将 所 疏 取 的 数据 保存 到 txt 文件 和 MySQL 远程 服务 占 中 。 

第 40~49 行 是 从 网 站 起 始 页 面 中 获取 了 总 共 的 页 数 。 因 为 这 个 总 页 数 并 不 是 单独 包含 在 
某 个 标签 内 的 ， 所 以 这 里 使 用 re 模块 将 这 个 页 数 过 小 出 来 。 

第 52~59 行 的 getResponseContent 图 数 还 是 用 于 返回 从 URL 中 得 到 的 原始 数据 。 

第 62~79 行 是 使 用 bs4 模块 从 原始 数据 中 过 滤 出 所 需要 的 数据 ， 然 后 将 数据 保存 到 了 
selfbooksList 列表 中 去 。 

第 82~90 行 的 pipelines 函数 将 self.bookList 列表 中 的 数据 保存 到 txt 文件 。 

第 92~93 行 是 _main_ 程序 ， 只 有 一 条 命令 ， 作 用 是 实例 化 GetBookName 类 。 


bs4 疏 虫 实战 四 : 获取 电影 信息 


这 一 节 的 内 容 还 是 跟 娱 乐 有 关 ， 从 网 络 上 获取 电影 。 影 视 网 站 会 每 天 都 有 新 的 电影 上 
架 ， 限 于 页 面 的 篇 幅 ， 每 页 显示 的 电影 有 限 。 如 果 想 找 一 部 心仪 的 电影 恐怕 得 翻 过 整个 网 
站 ， 当 然 也 可 以 使 用 百度 的 高 级 搜索 和 网 站 目 身 的 搜索 ， 但 最 方便 的 还 是 目 己 写 个 爬虫 ， 每 
天 让 它 扑 一次， 就 可 以 知道 有 什么 新 电影 上 架 了 。 


6.6.1 目标 分 析 


这 次 爬虫 的 目标 网 站 是 http:/dianying.2345$.com/， 疏 虫 的 搜索 目标 仅 限 于 今年 的 电影 。 
在 网 站 打开 搜索 ， 在 年 代 中 选择 2016， 得 到 的 结果 如 图 6-58 所 示 。 


230 


#68 Beautiful Soup 爬虫 


L dianying.2345.com/list/----2016--.html 


23458] 首页 电影 电视 剧 动漫 综艺 AS VIP 电影 美女 秀 场 BEV 


类 型 ces sts 喜剧 战争 
动画 tate BE we 


5 区 : ES ah se ae 韩国 
东南 亚 地 区 。 欧美 地 区 HE 


全 部 REUL 2015 2014 2013 2012 2011 2010-2000 = 90K 


ai 23 £2 REA BA 


9 857 


Eo ANE 凋 尘 动物 城 ( 国语 版 . 。 Has: 原来 你 还 在 .。 Ae 美人 色 ( ASA) 
i 主演 : SER- HBA 主演: STA ATE ERNE AA 主演 : ME AS 


6-58 MEHER 


从 图 片上 看 ， 这 个 站 点 和 上 节 的 起 点 找 书 没 什么 区 别 啊 ? e, MERER, BRS 
疏 取 的 规则 有 所 不 同 外 ， 这 个 爬虫 和 起 点 网 站 的 朴 虫 区 别 不 大 。 这 节 的 重点 不 在 于 爬虫 ， 而 
在 于 获取 页 面 的 过 程 ， 这 个 暂且 先 放 下 ， 继 续 爬 虫 过 程 。 

在 页 面 的 下 方 单 击 “ 下 一 页 ”， 发 现 URL 变 成 了 http://dianying.2345.com/list/----2016--- 
2.html。 测 试 一 下 http://dianying.2345.com/list/----2016---1.html， 可 以 正常 返回 ，urls 的 变化 规 
律 找 到 了 。 再 看 看 总 共有 多 少 页 呢 ? 如 图 6-59 所 示 。 


piy i yew ee > A 4 TRN ss 
à pA H — ù E — ‘ae ee 
` A . h \ a 


能 出 没 之 能 心 归来 自杀 小 队 ( XEM ) Bee 赔 神 风 王 2016 


: SKIS SIRA ES: Be pH S: 林心如 (yA (fhe vbe 


_E 


图 6-59 ”总 页 数 


总 页 数 也 找到 了 ， 最 后 只 再 要 找到 爬虫 的 过 滤 规 则 惑 可 以 了 。 单 击 页 面 空 日 处 ， 在 弹出 
菜单 中 选择 “得 看 网 员 源 代码 ”选项 ， 碍 看 页 面 源 代 码 ， 如 图 6-60 所 示 。 
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ass ZLODALLT]J et D É 
dv class=" pic" onmouseover="this. ee pic picHover’ ; 
<img width="140" height="195" src=“ 
loadsrc="http://imgwx5. 2345. con/dypcing/'ing/a/SY 2161388. jpg“ 
onerror=" javascript :this. src=" http://imgwx3. 2345. com dypcimg/ images/def ault_img110. jpg’ ;”alt=“ 疯 狂 动物 城 国 语 版 > 
<i class="iStyleIcon iStyleFF"></i> <span class="“pRightBottom" ><em>9. 84}</ em></spar> 
<a class=“aPlayBtn’ href=“http://dianying. 2345. com detail/161388. html” target="_blank” tit1e= "疯狂 动物 城 国 
ajax83“ys_dy_list_pic_161388*><i></i></a> 
</div> 
<span class="sTit"><a title=" 疯狂 动物 城 国 语 版 ”target="_blank” href="http://dianying. 2345. com/det ail/ 161388. 
ajax83-"ys_ 由 -list_title_161388"> 疯 手动 物 城 〈《 国 语 版 姓 8230 :</a></spard 
<span class=" Des EÑ: <em<a href=“http://dianying. 2345. com/mingxing/22403/* title=" SIR - 古 德 温 电影 ”1 + 
ajax83"ys_ 由 list_actor_161388”> 金 妮 弗 ' 古 德 温 人 /a>《yemDknbsp; 本 森 ' NHFB</ spa 
</li> 
iy class-"pic" mmouseover="this. className’ po picHover’ :“ 
<img widthe"140" height="195" src="http: x 5. co 
loadsrc=" “http: //imgwx2. 2345. con/dypcing/ine/9/56/1 68580. ipg" 
onerror=" javascript :this. src=’ http://imgwx4. 2345. com dypcimg/ images/def ault_ing110. jpg ;”alt=" 致 青春 原来 你 还 在 这 里 ”> 
<i class="iStyleIcon iStyleFF*></i> <span class="pRightBottom” ><em>6. 54}</em></spar> 
<a class=“aPlayBtn” href=“http://dianying. 2345. com/detail/168580. html” target="_blank” tit1e= "和 致 青春 原来 你 
ajax8"ys_dy_list_pic_168580"><i></i></a> 
</div> 
<span class="sTit"><a title="RBGRAMPERB” target="_blank” href=“http://dianying. 2345. com/det ail/ 16858 
ajax8"ys_dy_list_title 168580 RBH: RIP Eae8230 :</a></spard 
<span class=" sDes") 主 演 : <em<a href=“http://diamying. 2345. com list/-—wuyifar-—. html” title=" 刘亦菲 电影 ”0 + 
ajax8"ys_dy_list_actor_168580" >3UJP3E</a></em&nbsp; <em<a href="http://dianying.2345, com list/-—liuyif ei—-. html“ 
target="_blank" dat a-ajax83="ys_dy_list_actor_168580" >RIPPL</a></em></sparm> 
</li> 


ormouseout=“this. className=’ pic’ ; “> 


onnouseout= “this. classNane=’ pic’ ;*> 


图 6-60 页 面 源 代 码 


直接 找 <l 户 标签 就 可 以 了 。 先 找 <ul> 标 签 ， 然 后 再 风 套 俘 找 <li> 标 签 也 行 ， 更 加 精确 。 现 
在 息 虫 所 有 的 要 素 都 已 经 完备 了 ， 可 以 构造 息 虫 了 。 


6.6.2 项目 实施 


在 Eclipse 中 创建 新 项 目 movieBS4， 然 后 在 项 目 中 创建 新 的 PyDev Module 文件 
get2016movie.py， 再 将 上 面 几 节 都 用 到 过 的 mylog.py 复制 到 movieBS4 项 目下 。mylog.py 还 
是 直接 略 过 ， 主 要 是 get2016movie.py。 


【示例 6-11】get2016movie.py HAA WF: 
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单 击 Eclipse 图 标 栏 的 运行 图 标 ， 顺 利 获取 了 所 需 的 数据 ， 如 图 6-61 所 示 。 


B g viaa 


o g 
7 


> |P) get2016movie.py 
> [P] mylog.py 
> @ D:\Program Files\python 
LS baiduBs4 
D helloPython 
Ø gidianBs4 
UW test 


6.2 
7 
i4uegareQ=e2zn 7.8 
15 RRS HERS 5.3 
D winningNumBS4 16 SEees-eeeeecus 


图 6-61 获取 数据 
这 个 谎 虫 做 到 这 里 就 可 以 结束 了 。 可 这 跟 上 节 让 起 点 中 文 网 站 的 爬虫 太 相 似 了 ， 根 本 没 
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Us BE SS fhe — AML 


6.6.3 bs4 REHE 


Hu EL KAREE, A EY ek DS) Ay I he so H MEA TT Ae SIG He est a. J BY 
不 好 被 封锁 了 怎么 办 ?最 简单 的 方法 当然 是 换个 IP FREI, WR PGA IE ALAS AMERY, tf 
单 ， 换 个 headers 就 可 以 了 “一 般 故 虫 默认 的 user-agent 都 比较 特别 ， 很 容易 被 反 疏 虫 程序 找 
出 来 ) 。 还 记得 每 个 项 目 中 都 有 的 getResponseContent 函数 吗 ? 本 来 只 需要 一 行 就 能 解决 的 
问题 ， 每 次 都 把 它 扩展 成 了 一 个 函数 ， 就 是 在 这 个 时 候 用 的 。 


【示例 6-12】 将 getResponseConteng 函数 修改 一 下 ， 最 终 的 get2016movie.py 的 内 容 如 下 : 
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好 了 ， 这 样 再 也 不 怕 被 网 站 封锁 了 。 封 锁 一 次 ， 大 不 了 再 换个 代理 而 已 ， 简 简单 单 解 决 
问题 。 


6.6.4 代码 分 析 


本 节 的 代码 与 上 节 的 起 点 网 站 疏 虫 很 相似 ， 这 里 就 不 详细 解析 了 ， 只 分 析 一 下 其 中 的 不 
同 之 处 。 第 一 个 不 同 之 处 在 于 模块 的 导入 ， 本 节 的 get2016movie.py 导入 了 codecs 模块 。 这 
个 模块 可 以 选择 输入 字符 的 编码 。 之 前 的 程序 在 写 入 txt 时 都 需要 将 字符 串 的 编码 转换 成 
utf8。 这 里 只 需要 用 codecs.open(filename,“w”，‘utf8”) 打 开 文 件 就 可 以 了 。 后 面 往 句柄 中 输入 
的 字符 串 都 会 自动 保存 为 utf8 的 编码 。 

第 二 个 不 同 就 是 getResponseContent K% y o KE getResponseContent KŽP YS A T — 
个 浏览 器 的 headers 和 一 个 经 过 验证 、 可 以 使 用 的 proxy， 解 除了 网 站 反扑 虫 程 序 的 封锁 。 但 
这 种 反扑 虫 很 被 动 ， 只 有 被 封锁 了 才 会 解除 封锁 ， 而 不 能 主动 避免 反扑 虫 程序 的 封锁 。 
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BRE ME, MRENE. Æ Scrapy 里 曾 提 过 反扑 虫 的 运行 机 制 ， 基 本 上 就 是 
通过 IP. headers 来 锁定 爬虫 用 户 ， 然 后 进行 封锁 《用 验证 码 、 验 证 图 案 的 不 在 讨论 范围 
H) 。 前 面 的 Scrapy 使 用 的 是 随机 跳 转 proxy 和 headers 的 方法 对 付 反 疏 虫 。 这 里 也 是 如 此 
(《 反 反 疏 虫 的 手段 远 不 止 这 些 ， 比 如 使 用 专门 网 站 爬虫 、 分 布 式 爬虫 都 可 以 。 个 人 用 户 没 什 
么 特殊 要 求 ， 做 到 这 一 步 就 差不多 了 ) 。 


6.7.1 目标 分 析 


本 节 将 使 用 随机 proxy 和 headers 主动 抵抗 反 息 虫 。 打 开 www.yinyuetai.com 网 站 ， 本 节 
爬虫 的 目的 是 爬 取 音 悦 侣 网 站 公布 的 MV 榜 单 。 单 击 网 站 最 上 方 的 “V 榜 ”， 从 弹出 沫 单 中 
选取 “MYV 作品 榜 ” 选 项 ， 打 开 了 音乐 VB. WA AB, POMS ESR SA MV 音乐 榜 
的 前 50 名， 使 用 了 3 个 网 页 。 这 3 个 页 面 的 网 址 分 别 为 http://vchart.yinyuetai.com/vchart/trends? 
area=ML&page=1._http://vchart.yinyuetal.com/vchart/trends?area=ML&page=2._http://vchart.yinyuetai. 
com/vchart/trends?area=ML&page=3, WA 6-62 所 示 。 


TOP21-40 TOP41-50 


pat) "| BARITS EEA BE EO Me 
一 BPs 
分享 排名 


RAS. ETAR RRR! 


SAFARAS BFAA SSSR sae 
Bosses ë Bossrorn 


图 6-62 音 悦 台 榜 单 


看 看 其 他 几 个 V 榜 中 的 地 区 代码 ， 分 别 是 HT. US. KR 和 JP, Urls 的 规则 很 明了 了 。 
再 来 看 看 爬虫 的 抓 取 规则 。 在 网 页 的 任意 空白 处 右 击 ， 选 择 弹出 菜单 中 的 “查看 网 页 源 代 
码 ” 项 ， 打 开 页 面 源 代 码 页 面 ， 如 图 6-63 所 示 。 
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© > @ |D view-source:vchart.yinyuetai.com/vchart/trends?area=HT 


<p class= asc-data clearfix > 
<em class=“ score-asc” ></en> top_num 
<span class="asc-num" >0. 000</span> 

</p> 


civ class= 
<div class="mv_info*> 
<div class=“mv_info_head_img_cortainer J_add_corweniert _container”> 
fa class=“img video-he-img” href="http: // v. yiryuetai. con/ videa 2646605" targete’_} 
<img srco"http: //imed. yyt cdn. com video 


0 
alt="RF 官方 版 "7 
1 


<div class=“bo-mask"> 
<i class=“be-icon"></i> 
é/div> 
</a> 
<span class="J_add_comveniert” title="DDA (BIER dat avidec id=" 2646604 
style=“ display: none; “p4 span> 
</div> 
<div class=” info”? 
{h3> 
<a target="_blark” href="http://v. yinyuet ai. com/video/2646505° > 终于 BAMR/a 


hy 
íp class="cc" ><en>-~</em> 
<a class="special” href="http://wwr. yinyuet ai. com/fanclub/1 68" 
target="_blank”) 3KÄA IE a> 
</p> 
<p class=“c9" ;发布 时 间 : 2016-08-12</n> 


</div> 


6-63 ”源码 页 面 


所 有 的 上 榜 MV 都 在 标签 <div class="op num"> 这 个 标签 下 。 疏 虫 的 抓 取 规 则 也 有 了 ， 下 
面 就 看 具体 实施 了 。 


6.7.2 项 目 实施 


打开 Eclipse， 创 建新 项 目 YinYueTaiBS4URL， 并 在 项 目 中 创建 一 个 PyDev Modules 文 
件 getTrendsMV.py 作为 主 文件 ， 把 上 节 项 目 中 使 用 过 的 mylog.py 复制 到 当前 目录 下。 因为 
要 使 用 不 同 的 proxy 和 headers， 再 创建 一 个 新 的 资源 文件 resource.py。 

老 规矩 ，mylog.py 可 以 略 过 ， 这 次 先 看 看 resource.py。 


【示例 6-13] resource.py 的 内 容 如 下 : 
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这 个 文件 很 简单 ， 仅 包含 了 2 个 列表 。UserAgents 列表 只 需要 在 网 上 找 一 下 ， 可 以 找到 
各 种 各 样 的 headers， 排 除 抒 移 动 端的 也 有 不 少 〈 有 的 网 站 根据 客户 端的 不 同 返 回 的 数据 也 不 
同 )， 尽 量 选择 大 众 化 的 UserAgent。 而 proxies 那 就 更 简单 了 ，Scrapy 项 目 中 不 是 有 个 
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getProxy INAS? 执行 条 命令 而 已 ， 来 个 100 条 proxy 都 没 问 题 。 这 里 仅 为 测试 给 数 十 个 
proxy 就 可 以 了 ， 只 需 稍微 注意 一 下 ， 不 要 选择 https 协议 的 就 可 以 了 (https 协议 的 proxy 也 
可 以 用 ， 但 会 增加 代码 工作 量 。 既 然 http 协议 的 够 用 了 ， 就 不 用 那么 费劲 了 )。 


【示例 6-14】 主 程序 getTrendsMV.py 的 内 容 如 下 : 


Python PMR SAK ) 


( #68 Beautiful Soup MUE H 


Python Wike 8 EAR 


所 有 的 代码 部 完成 了 ， 开 始 运 行 。 单 击 Eclipse 图 标 栏 上 的 运行 图 标 ， 执 行 
getTrendsMV.py， 得 到 的 结果 如 图 6-64 所 示 。 


| File Edit Navigate Search Project Pydev Run Window Help 
. 4 . 4 a = -; a + = EK, m ‘i 
OCT lal Weed Se Oe ee ate pe ew Oe Quick Access |:| E | & (@)4 
e getTrendsMV B mvTopList.txt 3 = m 
1 Mainland ------- 2016-08-20 00:50:27 a 
P Š VinYueTaiBS4 201 91.32 Seeeeese2016-07-19 zrg #+s HR Raee Meee Sen stame>s 
‘epics 3@2 91.31 eteeee+2016-08-18 Lotto sea =| 
B) getTrendsMV.log 403 89.81 etme mReO2016-08-12 - anaana amsa 
b [P] getTrendsMV.py 504 88.21 gimme ee2016-08-08 - HGARER BRAK MANS RR AE+ 
Toul 605 86.73 phe eeee2016-07-20 aoug~e8 ge mé<upet “se 
国 myTopList.txt 706 86.15 seatsreemeee2016-08-17 =Z Seemecee eeene 


一 一 一 2016-08-20 00:50:27 
布 时 间 ，2016-07-19 王 俊 凯 思念 
: 2016-08-18 
2016-08-12 
2016-08-08 
a]: 2016-07-20 
: 2016-08-17 
2016-07-21 
2016-08-15 
: 2016-07-19 
: 2016-08-18 
2016-08-09 
2016-08-16 
: 2016-08-12 
: 2016-07-21 


6-64 run getTrendsMV.py 


好 了 ， 程 序 执行 结果 没 问题 。 如 果 想 知道 实时 榜 单 ， 单 击 鼠 标 运行 一 下 程序 就 可 以 了 。 


IO ID D D IO DO ED ED IO ID ED ED ID 
pt 


6.7.3 代码 分 析 


本 节 的 getTrendsMV.py 爬虫 从 功能 上 看 要 比 上 节 的 被 动 式 反 爬虫 要 复杂 一 些 ， 但 代码 更 
简单 一 点 。 项 目 中 mylog.py 没什么 好 说 的 ， 就 一 log 助手 而 已 。resource.py 也 无 须 多 说 ， 就 
一 资源 文件 。 如 果 和 党 得 手动 挑选 proxy 比较 肤 烦 ， 可 以 再 写 一 个 Python 程序 让 其 目 动 导入 
proxy 到 resource.py 中 。 唯 一 需要 分 析 的 就 是 getTrendsMV.py 主 程序 了 。 

第 9~15 行 ， 开 头 还 是 导入 所 需 的 模块 ， 这 里 只 是 多 导入 了 一 个 random 模块 ， 用 于 从 列 
表 中 随机 挑选 User-Agent 和 proxy。 

第 17~22 行 创建 一 个 Item 类 ， 这 个 是 仿照 Scrapy 的 Item.py 写 的 ， 也 很 简单 。 

第 25~106 行 是 GetMvList 类 。 这 个 类 将 从 yinyuetai 网 站 中 获取 所 需 的 数据 。 第 29~32 
行 给 出 了 起 始 页 面 和 urls 的 规则 列表 ， 然 后 init _ 困 数目 动 执行 了 selfgetUrls ph 2X. 
self.getUrls 再 调用 其 他 函数 ， 完 成 类 设计 的 功能 。 第 36~47 行 是 getUrls 图 数 ， 将 利用 起 始 页 
url 的 页 面 规则 ， 将 所 有 需要 疏 取 的 网 页 url 存 入 到 urls 列表 中 。 第 51~67 行 是 
getResponseContent 国 数 ， 它 将 返回 请 求 url 的 数据 。 每 执行 一 次 getResponseContent 函数 都 
将 调用 一 次 selfgetRandomHeaders 和 self.getRandomProxy 国 数 。 随 机 选择 一 个 proxy 和 
User-Agent TH, IEW Me TAME. oS 61 行 的 作用 是 每 执行 一 次 图 数 都 将 暂停 
1 秒 ， 避 免 被 反扑 虫 工 具 发 党。 第 69~90 行 是 spider MAL, EME EAR Ha NE E AAEN 
则 ， 从 返回 的 数据 中 抓 取 所 需 的 数据 。 第 93~97 行 是 getRandomProxy eh RX All 
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getRandomHeaders Kr, BARA 1 行 命令 ， 但 还 是 写成 了 函数 ， 这 是 为 了 以 后 有 什么 新 功 
能 可 以 很 方便 地 添加 进去 。 第 100~109 行 是 pipelines 函数 ， 将 所 有 抓 取 到 的 有 效 数据 保存 到 
txt 文件 中 。 第 112~113 行 是 程序 的 _main 程序 ， 只 有 一 条 命令 ， 用 于 实例 化 GetMvList 
类 。 


6.5 zane 


Bs4 ME Rae Kk. EMTS EF WBE aT He ce ME, aU AE PA SAR S 
Ao TMS ERIS NS, RTE EEC. TAS Aa, (ASRS AC, 
得 按照 框架 作者 的 思路 走 。 作 文 题 毕 竟 是 自己 写 的 ， 可 以 随心 所 欲 地 修改 调整 。 如 果 是 比较 
小 的 项 目 ， 个 人 建议 还 是 用 bs4， 可 以 有 针对 性 地 根据 上 自己 的 需要 顷 写 爬虫 。 大 项 目 ， 那 还 
是 建议 选 Scrapy 吧 ，Scrapy 能 流行 至 今 可 不 是 浪 得 虚名 。 
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细心 的 读者 应 该 已 经 发 现 了 ， 本 章 之 前 的 爬虫 讲 的 都 是 对 一 般 静 态 网 站 的 数据 过 滤 ， 但 
不 是 所 有 的 网 站 都 可 以 这 样 简单 地 得 到 数据 的 。 比 如 ， 某 些 站 点 需要 登录 后 才能 获取 数据 ， 
这 样 一 来 ， 仅 靠 urllib2 模块 就 有 点 力不从心 了 Curllib2 模块 也 可 以 爬 取 动态 网 站 的 数据 ， 不 
过 过 程 就 很 麻烦 了 ) o A Python 还 有 更 加 强力 的 模块 Mechanize。 

Mechanize 并 不 是 爬虫 ， 它 是 一 个 Python 模块 ， 用 于 模拟 浏览 器 的 模块 。 本 书 讲 的 是 网 
络 爬 虫 ， 直 接 疏 数据 就 好 了 ， 为 什么 会 跟 Mechanize 扯 上 关系 呢 ? 前 面 的 章节 都 是 使 用 
urllib2 模块 问 服务 器 发 送 请 求 的 。 如 果 网 页 要 求 登 录 ， 输 入 用 户 名 、 密 码 ，urllib2 可 以 应 
付 。 但 如 果 是 需要 输入 验证 码 那 就 及 烦 了 。 有 目前 是 有 开源 的 方案 可 以 解决 这 个 问题 ， 只 不 过 
需要 绕 很 多 的 弯路 。 倒 不 如 直接 使 用 模拟 浏览 右 ， 很 方便 地 解决 这 个 问题 。 

Python 的 第 三 方 模块 中 ， 能 模拟 浏览 右 的 模块 也 不 少 。 选 择 Mechanize 的 原因 在 于 它 的 
易 用 性 和 实用 性 比较 平衡 ， 功 能 强大 而 又 简单 易 用 ， 就 选 它 了 。 


安装 Mechanize 模块 


Mechanize 的 官网 是 http://wwwsearch.sourceforge.net/mechanize/。 在 官网 中 给 出 了 3 种 安 
装 方 法 : Easy_install 安装 、 源 码 安装 和 git 安装 。 实 际 安装 时 可 以 根据 平台 特性 选择 最 简单 
的 安装 方法 即 可 。 


7.1.1 Windows 下 安装 Mechanize 


在 Windows 中 安装 Python [N@— yee, tafe MTA SET pip T Cast As Eos 
配置 过 pip 源 了 ， 使 用 初始 源 会 比较 慢 )。 打 开 cmd.exe， 执 行 命令 : 


pip install mechanize 


执行 结果 如 图 7-1 所 示 。 
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C\Windows\system32\cmd.exe Eas 


-Wsers\king>pip install mechanize 人 
ollecting mechanize 
Downloading mechanize—-@.2.5.tar.gz 《383kB> 


川 


377 ! 143kB 354kB/s eta 0:00:01 
40% 1 153kB 253kB/s eta 6:66:06 


427 
457 


上 163kB 245kB/s eta 9:99: 
1 174kB 243kB/s eta 6:68 


48% ! 184kB 387kB/s eta 6:6 
58x i 194kB 386kB/s eta ð: 
53% 1 264kB 382kB/s eta @: 
56% i 215kB 382kB/s eta ð 


587 
617 


1 225kB 382kB/s eta 
! 235kB 383kB/s eta 


64% ! 245kB 383kB/s et 
66% 上 256kB 664kB/s e 
69% i 266kB 721kB/s 
727 ! 276kB 736KB/s 


747 
777 
807 
827 


! 286kB 673kB/s 
! 296kB 678kB/ 
! 307kB 691kB 
! 317kB 696k 
! 327kB 701 
i 337kB 78 
! 348kB 78 
E : 358kB 7 -| 


d 


7-1 Windows 安装 mechanize 


已 经 把 Mechanize 安装 到 Windows 上 ， 可 以 直接 使 用 了 。 


7.1.2 Linux 下 安装 Mechanize 


在 Linux 找 安装 软件 最 简单 的 方法 还 是 apt-get， 感 谢 “ 万 能 ”的 deiban 软件 库 ， 即 使 是 
Python 模块 也 可 以 用 apt-get 一 键 安装 。 不 必 介 意 Mechanize 官网 上 的 安装 建议 ， 怎 么 简单 怎 
么 来 就 可 以 了 。 执 行 命令 : 


apt-get install python-mechanize 


执行 结果 如 图 7-2 所 示 。 


king@debian:~$ apt-cache search python-mechanize 

python-mechanize - stateful programmatic web browsing 

king@debian:~$ su 

密码 : 

root@debian:/home/king# apt-get install python-mechanize 

正在 读 取 软 件 包 列表 ..。. 完成 

正在 分 析 软 件 包 的 依赖 关系 树 

正在 读 取 状态 信息 .. .完成 

下 列 【 新 】 软 件 包 将 被 安装 : 
python-mechanize 


升级 了 o RA, PERT 1 TREE, EHR 0 个 软件 包 ， 有 0 个 软件 包 未 被 升级 


需要 下 载 343 kB 的 软件 包 . 

解压 缩 后 会 消耗 掉 1,000 kB 的 额外 空间 . 

获取 : 1 http://mirrors.163.com/debian/ jessie/main python-mechanize all 1:0.2.5- 
3 [343 kB] 

下载 343 kB, FEBY of} (1,249 kB/s) 

| 正在 选中 未 选择 的 软件 包 python-mechanize. 

| (正在 读 取 数据 库 ... 系统 当前 共 安 装 有 83384 个 文件 和 目录 。) 
正 准 备 解 包 .. -/python-mechanize 1%3a0.2.5-3 all.deb 

正在 解 包 python-mechanize (人 

正在 设置 python-mechanize (1:0.2.5-3) 

root@debian: /home/king# 

root@debian: /home/king# il 


7-2 Linux 安装 mechanize 


因为 Mechanize 很 久 没 更 新 的 缘故 ，Linux 下 安装 的 最 稳定 版 本 也 是 最 新 的 版 本 0.2.5. 
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不 过 无 须 担 忧 ，Mechanize 已 经 很 强大 了 。 使 劲 地 往 好 的 方面 想 ， 说 不 定 没 更 新 是 因为 这 个 
模块 已 经 改 无 可 改 了 呢 ? 


7.2 Mechanize 测试 


百 闻 不 如 一 见 ， 说 得 再 多 也 不 如 直接 测试 一 次 。Mechanize 模块 ， 常 用 的 命令 、 方 法 并 
不 多 ， 作 为 一 般 使 用 者 ， 无 须 退 求 掌 控 所 有 细节 ， 只 需要 能 使 用 、 会 使 用 即 可 。 它 只 是 个 很 
简单 的 模块 ， 多 试 几 次 就 能 熟练 掌握 。 


7.2.1 Mechanize 百度 


先 试 下 最 简单 的 用 法 ， 以 最 常用 的 网 站 百度 为 例 。 使 用 Mechanize 访问 百度 搜索 站 点 ， 
并 使 用 百度 搜索 “python 网 路 朴 虫 ”得 到 返回 结果 。 如 果 不 使 用 Mechanize， 那 就 只 能 在 浏 
览 器 中 输入 搜索 的 关键 字 ， 再 观察 URL 的 变化 规律 ， 最 后 将 所 有 的 URL 注入 到 列表 中 ， 一 
个 个 地 返回 结果 疏 取 数据 。 下 面 演 示 如 何 使 用 Mechanize 模拟 浏览 器 ， 搜 索 关 键 字 。 

使 用 putty 连接 到 Linux， 运 行 Python 程序 ， 并 导入 Mechanize 模块 ， 如 图 7-3 所 示 。 


king@debian:~$ python 
Python 2.7.9 (default, Mar 1 2015, 12:57:24) 


", "copyright", “credits” or "license" for more information. 


7-3 mechanize 环境 


在 Python 环境 下 ， 执 行 命令 : 


执行 结果 如 图 7-4 所 示 。 
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king@debian:~$ python 
Python 2.7.9 (default, Mar 1 2015, 12:57:24) 
[GCC 4.9.2] on linux2 
Type “help”, "copyright", "credits" or "license" for more information. 
>>> import mechanize 
>>> br = mechanize.Browser () 
-set_handle equiv (True) 


-set_handle redirect (True) 

-set_handle referer (True) 

Set handle robots (False) 

"Set handle gzip(False) 

-set_handle refresh (mechanize. http.HITPRefreshProcessor(), max_time=1) 

.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv: 
tt Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 
>>> 


7-4 Browser 环境 设置 
使 用 mechanize 浏览 器 打开 百度 搜索 的 主页 ， 并 查看 打开 网 页 中 的 框架 。 执 行 命令 : 


执行 结果 如 图 7-5 所 示 。 


ppe D¢cyie6O0 whose wrapped object = <closeable respo 
nse at 0x7 £a5b4c91368 whose fp = <socket. fileobject object at Ox7faSb4éccccS0>>> 


>>> §tor form in br.forms 
<HiddenControl (ie=utf-8) (readonly)> 
<HiddenControl (f=8) (readonly)> 
<HiddenControl(rsv_bp=1) (readonly) > 
<HiddenControl(rsv_idx=1) (readonly)> 


<HiddenControl(ch=) (readonly)> 
S (readonly)> 


g DY] /ar (readonly) > 
m -oE TF) (readonly) > 
aimee meer eid (readonly) > 
<HiddenControl(oq=) (readonly)> 
<HiddenControl (rsv_pq=e21416f7000ac4be) (readonly) > 
<HiddenControl (rsv_t=2358R/NVmDD+/zEba 6aqmOPkH9Q20Hj 304sMNarrDF&C+yxoLNtKDM40z 
qk) (readonly)> 

<HiddenControl (rqlang=cn) (readoniy)>> 


7-5 ”显示 网 页 框架 


从 图 7-5 中 可 以 看 出 ， 只 有 一 个 名 字 为 f 的 框 如 《有 时 候 框 架 没 有 名 字 ， 那 束 只 能 用 它 
们 的 顺序 来 选择 。 第 一 个 框架 是 nr=0， 第 二 个 是 nr=1， 以 此 类 推 )。 输 入 文字 的 位 置 为 文本 
和 输入 框 <TextControl (wd=)>。 选 择 框 染 ， 在 框架 内 输入 数据 后 提交 数据 。 以 搜索 “Python 网 
络 爬 虫 ”为 例 ， 执 行 命令 : 


执行 结果 如 图 7-6 所 示 。 
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>>> 


>>> br.select_form(name='f') 


>>> br.form['wd'] = "Python PUSSIES: 
>>> br.submit () 


<response_ seek wrapper at Ox7faSb4c9iddO whose wrapped object = <closeable respo 
nse at Ox7faSb4cba8&30 whose fp = <socket. fileobject object at Ox7faSb4cd3dd0>>> 


图 7-6 搜索 关键 字 
返回 搜索 的 结果 ， 执 行 命令 : 


© print br.response().read() 
执行 结果 如 图 7-7 所 示 。 


<div class="c-row c-gap-top"> 


<div class="c-span4¢ opr-recommends-merge-item opr-recommends-merge-item-ver 
tical” data-click="{'rsv_re ename':'pythonitt A 5#@2R','rsv_re uri':'c50e36f1 
E£0084ec6bd908f5ea30d1be7'}"> 

<div class="opr-recommen|i 
ds-merge-p"> 
<a target="_blank" href="/s?rsv_idx=1léwd=pythontE&8tAEtA1tE7taAEt97tE4 
SBSSSELTETEBCESESET TASS EBSES TALS SELES EBT EBS Eusm=1léie=utf[-érsv_caq=python+tE7tBDt9 
ISETEBBESCTETSSSSACTESTIGFABErSV dl=0 right recommends merge 21102éamp;cq=python 
$202E7$BD$913E7SBBS9CLETESSSACZESt99tABcamp; sSrcid=28310éamp; rt=stEStAEtALtETTAES9 
TtEGtICTBALETLtBISBBtES tBStTASGtETSB1t8 Déamp;?; recid=21102éamp; euri=c50e36f1f0084ec6b 
aS08f5ea30dibe7"><img data—img="https://ss2.baidu.com/é6O0NYsjipOQIZétyhng/it/u=4 
0632802933, 465813éim=58" class="c-img c-img4 opr-recommends-—merge-img"/></a> 
</div> 
<div class="c-gap-top-smali"><a target="_blank” title= “python 计 算 与 编程 

实践 " href="/s?rsv_idx=1léwd=pythontEstAEtaAltE7tAEtS7TSE4tBStSEtE 7 tBCtI6tETTAStSBtE 
EStAE? SEtEStB7tBS éusm=1éie=utf-8érsv_cq=python+tE7tBDt91tE7tBBtSCtETESStACtESs99 
SABérsv_di=0 right recommends merge 21102éamp; cq-pythont20%tE7tBDt91tE7tBBtSCtE7St 
S8tACtESt99StABéeamp; srcid=28310éamp; rt=sEStAEtA1L SET SALES STITESGSESCLBALETIEBITBBIESTBY 
%A6%4E74B148D4amp; recid=21102éamp; euri=c50e36f1£0084ecébds08Ff5ea30dibe7T">pythontt 
算 与 编程 实践 </a><ydiv> 


</div> 


图 7-7 返回 搜索 结果 
查看 返回 页 和 面 的 所 有 和 链接， 执行 命令 : 


执行 结果 如 图 7-8 所 示 。 


http://tieba.baidu.com/f?kw=Pythont20tCDtFstC2tE7TtCStCOtBStE6éfr=wwwt : 贴吧 
http://zhidao.baidu.com/q?ct=17épn=0étn=ikaslistérn=10éword=Pythont20tCDtF8tC2tE 
7TSCStCOSBStEGefr=wwwt : Kij 
http://music.baidu.com/search?fr=ps&ie=utf-8&key=Python%204%CD4F84C2%E74C54%C04B34 
E6 : 
http://imacge.baidu.com/search/ index ?tn=baiduimageéps=1éct=201326592é1m=-1écl=2én 
|c=1éie=utf-Séword=Python20$CDtF8sC2tE7ECSSCOSB3tE6 : Be 
http://v.baidu.com/v?ct=301989888éern=20épn=0édb=0és=25éie=-utf-Séword=Pythont20%C 
DtFSstC2tE7TECStECOtTBStES : 
http://map.baidu.com/m?word=Pythont20tCDtFs8tC2tE7tCStCOtBStE6éfr=ps01i000 : 地 图 
Phtcp://wenku.baiduo.com/ search2wozrd=PVhons20sCDSE8sSC2SET7TSC5SCOSB3SE6E1m=0k&od=0EkI 
e=utf-8 : 

//wow.baidu.com/more/ : BS» 

javascript:; : 
/s?rsv_idx=1éwd=tE8%87tAAtEStB7 tB1ltEStSAtAs tE 648 StS BtESt8 64 994E7tBDt91tE7tBBtICt 
E7S88tACtEStO9tABeéusm=1éie=utf-sérsv _ca=python+tE7tBDt91tE7tBBtSCtE7TESStACtEss99| | 
SABérsv_di=0 right_recommends merge 21102écq=pythont208E7*BDt9i tE7tBStSCtETeESStA 
CSESSO9SABE Sri d=28310crt=SESSAESA1SE7SAESS7SE St SCEBASE 7451 tESSE4SB9SACSETSB1SED 


下 一 一 大 Ldx=1&wd=SEStS 7 SAASESTS 7B 1SESTSATASTECSEOTEBSESTECT SITE TIBDTS LSE TIBSTSCT 
E7%SS8%ACtES8%99%ABcusm=16ie=utf-Sérsv_cq=python+tE7%BDt91%E7%BBt9CtE7tSS%ACtESs99 
SABérsv_di=0 right_recommends merge 21102écq=pythont208E7tBDt9i1 tE7tBStSCtE7TtSsta 
CSE8$99S$ABesrcid=28310ért=tESSAESA1SE7SAE2972E 6% 9CSBASE7$B1SBBSE4SB9SA6S$E7$B1S8D 
&recid=21102&6euri=b44b507£21c84b2991b738b574444d1b : BOBFSMBIER 


7-8 返回 链接 
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使 用 mechanize 浏览 器 打开 指定 链接 ， 执 行 命令 : 


newLink = br.click_link(text='’ 自己 动手 写 网 络 和 爬虫 ) 
br .open (newLink) 


执行 结果 如 图 7-9 所 示 。 


>>> 
>>> newLink = br.click link(text=' 自 己 动 手写 网 络 仆 虫 ') 


>>> br.open (newLink) 


<response seek wrapper at 0x7fa5b4d08200 whose wrapped object = <closeable respo _ 
nse at Ox7faSb46Sedd0 whose fp = <socket. fileobject object at Ox7fa5b45e5050>>>| | 
>>> + 


7-9 打开 链接 


如 果 觉 得 打开 的 链接 不 对 ， 还 可 以 使 用 br.backO 命 令 返 回 上 一 个 页 面 。Mechanize 的 基 
本 操作 就 是 这 些 了 。 


7.2.2 Mechanize 3¢34 F460 


Mechanize 可 以 模拟 登录 ， 只 是 现在 几乎 所 有 的 站 点 登录 都 需要 输入 验证 码 。 虽 然 也 有 
开源 的 解决 方案 ， 可 以 解决 验证 码 什么 的 ， 但 后 面 有 更 简单 的 解决 方案 ， 没 必要 在 这 里 与 验 
WER Sth. BAA A, Sete RINT tt in Ae OTE, TRS mL INS, th ee ee 
最 简单 的 。 

如 今 无 须 验证 码 就 可 以 登录 的 站 点 可 不 好 找 。 好 在 身边 有 一 个 现成 的 Web 服务 器 符合 要 
求 ，F460 光 猫 的 配置 页 面 。 而 且 还 正好 是 动态 回复 数据 的 ， 人 简直 是 为 Mechanize 量 身 定做 
的 。 

在 浏览 器 中 打开 光 猫 F460 的 配置 页 面 http://192.168.1.1， 执 行 结果 如 图 7-10 所 示 。 


é > @ |D 192.168.1.1 


7-10 F460 光 猫 登录 


填写 用 户 名 和 密码 后 单 击 “ 登 录 ” 框 (用 户 名 是 admin， 密 人 码 要 么 直接 问 电 信 ， 要 么 在 
百度 里 搜索 一 下 “hack f460 3638” ) ， 进 入 配置 界面 ， 结 果 如 图 7-11 所 示 。 
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© 192.168.1.1 


ste 中 国电 入 
a 
4C09B4-453004C09B45B4692 


软件 版 本 号 


7-11 获取 光 猫 F460 信息 
先 用 Python 模拟 测试 一 次 。 打 开 putty， 登 录 到 Linux， 进 入 到 Python 环境 。 执 行 命 


执行 结果 如 图 7-12 所 示 。 


IDebian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
rmitted by applicable law. 
Last login: Thu Aug 25 15:41:52 2016 from 192.168.2.99 
king@debian:~$ python 
Python 2.7.9 (default, Mar 1 2015, 12:57:24) 
[GCC 4.9.2] on linux2 
ype "help", “copyright”, "credits" or "license" for more information. 
import mechanize 
cj = mechanize.CookieJar() 
br = mechanize.Browser () 
br.set_handle equiv (True) 
br.set_handle gzip(False) 
br.set_handle redirect (True) 
br.set_handle referer (True) 
br.set_handle robots (False) 
br.set_handle refresh(mechanize. http.HTTPRefreshProcessor(), max_time=1) 
br.addheaders = [('User-agent', 'Mozilla/S.0 (Windows NT 6.1; WOW64) AppleWe 
bKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36')] 
>>> br.set_cookiejar(cj) 
>>> br.open('http://192.168.1.1') 
response _ seek wrapper at Ox7f10beffc908 whose wrapped object = <closeable respo 
nse at 0x7f10bf06dbd8 whose fp = <socket. fileobject object at 0x7f10bf032c50>>> 


7-12 ”模拟 浏览 器 打开 光 猫 f460 主页 
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查看 网 页 上 的 框架 ， 执 行 命令 : 


执行 结果 如 图 7-13 所 示 。 


>>> 
>>> for form in br.forms(): 


fLogin POST http://192.168.1.1 application/k-www-form-urlencoded 
RE 


i WW) (readonly)> 

<SubmitControl (<Hone>=8% vil) (readonly) > 

<HiddenControl (Frm_Logintoken=) (readonly) >> 
>>> 


图 7-13 查看 主页 框架 


从 图 7-13 可 以 得 知 ， 主 页 框架 的 名 字 是 化 ogin， 框 架 内 文本 框 变量 名 是 Username, $ 
码 框 的 变量 名 是 Password。 进 入 文本 框 ， 给 变量 赋值 后 ， 发 送 数据 。 执 行 命令 ; 


其 中 在 选择 框架 时 ， 可 以 用 框架 名 字 ， 也 可 以 用 框架 的 序列 和 号， 序列 号 从 0 开始 。 例 如 
在 这 里 选择 框架 时 就 可 以 用 brselect form(nr=0)。 如 果 需 要 选择 第 二 个 框架 ， 则 是 
br.select form(nr=1)。 执 行 结 果 如 图 7-14 所 示 。 


Ivar height = Math.max(bHeight, dHeight); 
iframe.height = height; 


indow.setiInterval ("reinitiIframe()", 200); 
</script> 
<body align="center"> 

div align="center” style="margin:0 auto;" > 
<table width="808px" border="0"> 

tr><td> 


7-14 获取 框架 URL 


这 里 显示 了 框架 的 链接 。 根 据 链接 的 地 址 template.gch， 直 接 使 用 Mechanize 创建 的 浏览 
器 打开 这 个 链接 就 可 以 了 。 执 行 命令 : 
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执行 结果 如 图 7-15 所 示 。 


<div class="space 0"> 

<table class="infor”" id="TABLE DEV" width="410" border="0" cellpadding="0" cell 
spacing="1" bgcolor="#979797"> 

<tr class="blue 1"> 

<td class="tdleft">i= Š </td> 

<td id="Frm CarrierName" name="Frm CarrierName" class="tdright"> 中 国电 信 </td> 
</tr> 

<tr class="white 1"> 

<td class="tdleft"> 设 备 型 号 </td> 

<td id="Frm ModelName" name="Frm ModelName" class="tdright">F460</td> 

</tr> 

<tr class="blue_1i"> 

<td class="tdleft"> 设 备 标 识 号 </td> 

<td id="Frm SerialNumber" name="Frm SerialNumber" class="tdright">4C09B4-453004C 


<tr class="white_1"> 

<td class="tdleft"> 硬 件 版 本 号 </td> 

<td id="Frm HardwareVer" name="Frm HardwareVer" class="tdright">V3.0</td> 

</tr> 

<tr class="blue 1"> 

<td class="tdleft"> 软 件 版 本 号 </ta> 

<td id="Frm SoftwareVer" name="Frm SoftwareVer" class="tdright">V2.30.10P3T2hbH< + 


7-15 ”获取 数据 


好 了 ， 创 建 浏览 器 获取 数据 的 过 程 已 经 运行 了 一 遍 了 。 下 面 可 以 使 用 bs4 配合 
Mechanize 来 抓 取 光 猫 F460 的 数据 了 o 


7.3 Mechanize 实 站 一 : 获取 Modem 信息 


使 用 urllib2 也 可 以 比较 方便 地 处 理 那 些 无 须 验证 码 的 登录 页 面 ， 不 过 使 用 Mechanize & 
录 更 加 方便 。 当 然 是 怎么 方便 怎么 做 。 下 面 以 抓 取 光 猫 F460 的 设置 页 面 为 例 ， 使 用 
Mechanize 配合 Bs4 抓 取 光 猫 F460 的 数据 。 


7.3.1 获取 F460 数据 


启动 Eclipse， 新 建 PyDev 项 目 MechanizeAndBs4。 在 新 项 目 中 创建 一 个 PyDev Module 
文件 getF460Info.py。 


【示例 7-1] getF460Info.py 的 内 容 如 下 : 
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Python 网 络 息 虫 实 战 


然后 将 mylog.py 复制 到 MechanizeAndBs4 项 目下 ， 单 击 Eclipse 图 标 栏 的 运行 图 标 ， 执 
行 结果 如 图 7-16 所 示 。 
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| File Edit Source Refactoring Navigate Search Project Pydev Run Window Help 
"Om DT "OO Quick Access :| £ | $ (BB) 4 


P) getF460Info 52 = |= 


Š PEE 
国 f460Modemlnfo.txt 
国 getF460info.log 
> [P] getF460Info.py 
by IP) mylog.py 


> @ D:\Program Files\python © import mechanize 
a GB YinyueTaiBs4 from bs4 import BeautifulSoup 


from mylog import MyLog as mylog 
getTrendsMV.log 


> P) getTrendsMV.py 
|.) mvTopList.txt 

ò IP) mylog.py = def init (self): 

> [P] resource.py 7 self.url = ‘http://192.168.1.1 

> @ D:\Program Files\python = eis. ee A min’ 

LJ baiduBS4 self.password = 

W helloPython self.spider() 

LD moiveBS4 3 

LJ qidianBS4 «| m 

O test 

O winningNumBS4 


@author: hstking hstking@hotmail.com 


class ep eb done 


© Console X Fi PyUnit 
<terminated> E:\save\sync\ca 查看 (V) (H) 
2016-08-26 20:58:22,042 F460 


V3. 0 
Dy 4C09B4-453004C09B45B4692 
2016-08-26 20:58:22,849 V2. 30. 10P 


1. 0. OT4 
2012-07-06 11:59:11 


mode lName F460 
4 


7-16 run getF460Info.py 


MORRIE AiR, CARE TMAR. 


7.3.2 代码 分 析 


这 个 爬虫 大 部 分 和 以 前 的 bs4 MEH Be AKG, IAEA Mechanize IRRE T urllib2 模 
块 。 在 不 需要 输入 验证 码 的 情况 下 ，Mechanize 还 是 很 简单 方便 的 。 下 面 来 看 看 示例 7-1 这 个 
程序 中 的 代码 作用 。 

第 9~11 行 是 导入 模块 ， 很 标准 的 Python 程序 流程 。 

第 16~21 行 是 F460Info 类 的 解析 函数 ， 定 义 了 几 个 变量 。 在 C 语言 中 定义 这 种 类 似 的 变 
量 ， 一 般 都 是 在 文件 头 使 用 define. Python 中 没有 define， 放 在 这 里 正好 合适 ， 修 改 也 很 方 
便 。 

第 24~39 行 是 spider 类 函数 。 这 个 函数 的 作用 是 通过 BeautifulSoup 从 字符 串 中 过 滤 抓 取 
所 需 的 数据 。 在 使 用 soup 获取 数据 后 ， 都 使 用 了 strip 函数 去 除了 数据 左右 的 空格 、 回 车 等 
不 可 见 字 符 。 

第 42~71 行 是 getResponseContent 类 函数 。 作 用 是 通过 Mechnize 模块 来 获取 目标 页面 的 
返回 数据 。 第 44 行 创 建 了 一 个 浏览 右 对 象 ， 第 45~51 行 都 是 对 浏览 器 对 象 的 设置 。 这 些 设 
时 并 不 是 可 有 可 无 的 ， 在 打开 某 些 网 页 时 会 因为 这 些 设置 的 不 同 而 得 到 不 同 的 结果 。 如 果 没 
什么 特殊 要 求 ， 这 样 设置 就 可 以 了 。 

在 编写 程序 之 前 ， 已 经 知道 了 最 终 的 目标 网 页 是 http://192.168.1.1/template.gch。 可 在 第 
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53~62 行 还 是 用 浏览 器 对 象 打开 了 http:/192.168.1.1。 这 是 因为 直接 打开 目标 页 面 是 得 不 到 任 
何 数据 的 ， 只 有 先 登 录 http:/192.168.1.1， 得 到 合法 的 Cookie， 然 后 利用 这 个 Cookie 才能 打 
开 目 标 页 面 。 

第 74~79 行 的 pipeline 类 图 数 的 作用 是 处 理 最 终 的 结果 ， 将 结果 存 入 文件 。 这 里 直接 使 
用 open 打开 文件 ， 数 据 中 有 中 文字 符 ， 存 入 数据 时 必须 使 用 encode 将 字符 串 转 换 成 合法 的 
数据 后 存 入。 


/. 4 Mechanize 实战 二 : 获取 音 悦 台 公告 


上 节 讲 的 是 无 验证 码 登录 有 息 取 数据 ， 这 市 演示 需要 验证 码 的 候 虫 了 。 有 些 网 站 或 论坛 为 
了 防止 暴力 破解 ， 在 登录 框 设 置 了 一 个 验证 码 。 有 坚固 的 盾 就 有 锐利 的 矛 ， 目 前 针对 验证 码 
的 解决 方案 可 谓 是 千奇百怪 。 有 些 方案 的 确 有 效 ， 但 不 具备 普 遇 性。 考虑 到 爬虫 万 需要 的 只 
是 数据 ， 完 全 可 以 统 过 验证 码 ， 直 接 使 用 Cookie 登录 就 可 以 了 。 


7.4.1 登录 原理 
以 音 悦 台 网 站 为 例 ， 先 来 看 看 音乐 台 的 登录 界面 ， 如 图 7-17 所 示 。 


使 用 合作 账号 登录 (推荐 ) 音 悦 Tai 账 己 登 录 


@hotmail.com 


图 7-17 SWA RKA 


这 个 网 站 的 登录 束 相 当 的 及 烦 了 ， 它 需要 抑 动 训 块 到 合适 的 位 置 补 全 图 片 。 如 果 只 是 验 
证 码 还 有 些 开源 方案 可 供 选 择 。 这 种 验证 方式 ， 目 前 还 没 发 现 可 以 模拟 登录 的 Python 程序 。 
因此 干脆 选择 适应 性 最 广 的 方法 ， 直 接 利用 Cookie 获取 目标 页 面 数据 。 

这 种 方法 好 处 在 于 不 管 有 没有 验证 码 ， 也 不 省 验证 码 有 多 么 复杂 ， 它 部 是 有 效 的 。 它 利 
用 的 只 是 Cookie， 跟 用 户 名 、 密 码 、 验 证 人 码 部 没有 关系 。 缺 点 束 是 操作 比较 复 洒 ， 还 有 束 古 
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Cookie 的 生存 期 可 能 不 长 ， 过 一 段 时 间 就 得 重新 操作 一 所。 


7.4.2 ”获取 Cookie 的 方法 


获取 Cookie 的 方法 很 多 。 不 守 使 用 哪 种 方法 ， 盲 先 都 得 登录 后 再 操作 。 打 开 登 录 页 面 ， 


和 输入 用 户 名 密码 ， 将 消 块 拖 动 到 正确 的 位 置 后 登录 网 站 ， 如 图 7-18 所 示 。 


使 用 合作 账号 登录 (推荐 ) 


GÒ wane 


快捷 登录 ， 无 种 注册 


三 你 的 朋友 分 训 你 的 爱 | | o 
TRIAT REA: 还 没有 音 悦 Ta 账号 ? 立即 注册 ! 


图 7-18 登录 网 站 
登录 网 站 后 进入 目标 页 面 ， 如 图 7-19 所 示 。 
E 


HEY 


HERE heh 资讯 节目 言 悦 Stage 


【公告 】 关 于 冶 悦 台 手 机 APP 升 级 后 的 打 榜 公告 
为 了 能 和 够 在 移动 客户 端 更 有 效 的 统计 数据 ,杜绝 秋 齐 刷 榜 的 行为 ， 自 2016 年 8 月 22 日 (下 周一 ) 起 , 音 悦 tai 用 户 需要 梅 移 
动 客户 端 升 级 到 最 新 版 本 ,其 产生 的 二 项 数据 (移动 详 擂 放 、 移 动 庙 下 载 、 移 动 映 分 享 ) 才 能 争 有 效 计 入 打 榜 成 绩 , 而 卓 
REPiRAEASUES TEA. 更 新 提 礁 :I05 必 户 2.0 版 本 以 下 珊 要 却 划 现 有 版 本 里 新 下 载 最 新 版 客户 六 ;2.0 版 本 


以 上 可 以 直接 让 新 不 需要 重新 下 载 。 安 齐 用 户 4.0 版 本 以 下 可 以 直接 下 新。 更 新 地 址 : 
htty://www.yinyuetai.com/apps/ mobile 


8 月 7 日 StarTV 和 独家 直播 B.A.p 安 可 演唱 会 StarTV 和 独家 直 ... 


【独家 】8 月 7 日 StarTV 独 宗 直 播 B.A.P 安 可 演唱 会 StarTV 独 家 直播 8 月 7 日 8B.A.P 诈 尔 安 可 演唱 会 ! 不 到 现场 也 衣 一 起 哗 
HJE- 还 有 在 现场 也 大 不 到 的 台 关 幕后 各 和 神往 利 视 项 , 台 否 答 你 一 网 打 尽 4 还 不 抓紧 get 起 未 ~ 主 情 
0A :http://feature. yinyuetai.com/bap 


夏 日 少年 ， 导 期 颜 信 抢 新 经 ! 
舞台 的 中 央 因 你 们 而 发 光 ,青春 的 成 长 因 你 们 而 闪 亮 ， 少 年 ， 为 你 沧 陷 一 生 又 何妨 ! 谁 来 买 宝宝 委 唱 的 
—_—http://feature. yinyuetai.com/xrsn/wap 


图 7-19 目标 页 面 


259 


Python P28 ER KER 


从 目标 页 和 面 可 以 获取 个 人 的 信件 、 站 内 公告 等 。 现 在 只 需要 从 目标 界面 获取 Cookie 就 可 
以 了 。 其 他 的 数据 留 给 bs4 处 理 。 

获取 Cookie 的 方法 很 多 ， 以 下 只 列 出 比较 典型 的 几 种 。 

1 . JavaScript 获取 Cookie 


所 有 的 浏览 器 默认 情况 下 都 是 支持 JavaScript 的 〈 如 果 默 认 不 支持 ， 请 自行 修改 选项 )。 
因此 获取 Cookie 最 常见 到 的 方法 就 是 在 浏 贤 占 中 打开 目标 页 面 ， 然 后 在 地 址 栏 输入 
JavaScript MS: 


javascript: document.write (document.cookie) 


执行 结果 如 图 7-20 所 示 。 


€ SC Diyinyuetaicom/news/bulletin 


yinyuetai_uid=adw, ocQyMz7; tid=ab dxycTlLeo; route=lfdi avai 
JSESSIONID=aaa; xkHvv; autoPlayer=0; pushState=true; _ga=-GAl. 2. 1470831739; 
searchSID=c52c5 396f978b89b. 

u_inf=40878590%02Ł} i ~ nail. comrW0O2normal user%O2http%3AW2F%2Fime2. yytcdn. combZ 
token=282f1b1d3be65a24hKCEB160wL2. la8ef.0; token3=lda96C .  JEB1. 1GDEB1. AP. la8ef. 


CNZZDATA1330456=cnzz_ei. F%252Fuww. yinyuetai. com#252F%26nti 
p2=9cdef 86db 


7-20 JavaScript 获取 Cookie 


1X BH TT A HI F Ae E F A a tet E CR a PA ARB) Cookie 信息 ， 缺 点 是 获取 的 
Cookie 信息 有 时 会 不 太 完 整 ， 缺 少 关 键 的 几 项 。 有 的 网 站 用 这 种 方法 获取 的 Cookie 可 以 登 
录 ， 有 的 又 不 行 。 不 具备 普通 性 ， 这 种 方法 不 可 取 。 


2 . 浏览 器 记录 中 获取 Cookie 


浏览 器 在 登录 站 点 后 会 将 Cookie 信息 保存 到 文件 中 (这 里 以 Chrome 浏览 器 为 例 ) 。 这 
个 文件 的 位 置 在 C:\Users\WindowsLoginName\AppData\Local\Google\Chrome\User Data\Default 
目录 ， 文 件 名 为 Cookies， 如 图 7-21 所 示 。 


L « 本 地 磁盘 (C) >» BP > king » AppData » Local » Google » Chrome » User Data » Default » 


E Bev) ISAT) ”帮助 (H) 
RE v 新 建文 件 夫 


~ Cookies Cookies-journal _ Current Session 


文件 文件 文件 
2.90 MB 0 字 节 31.7 KB 


Current Tabs DownloadMetadata Extension Cookie 
文件 文件 
209 KB 755 =D 
» Extension Cookies-journal Favicons _ Favicons-journal 
文件 文件 


6.28 MB 


7-21 浏览 器 Cookies 文件 位 置 
这 个 Cookies 文件 实际 上 是 一 个 sqlite3 的 数据 库 。Chrome 将 浏览 右上 的 所 有 Cookie 都 
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保存 到 这 个 数据 库 中 。 将 这 个 Cookies 文件 复制 一 个 备份 ， 名 为 Cookies.db《〈 尽 量 避 免 直 接 
对 系统 文件 操作 ) o EHR Fik Shift 键 并 单 击 忌 标 ， 在 弹出 的 菜单 中 选取 “在 此 处 打开 命 
令 窗 口 ”， 如 图 7-22 所 示 。 


上 < 本 地 磁盘 (C:) > 用 户 ， king » AppData » Local » Google » Chrome » User Data » Def 


Extension Cookies-journal 
文件 


(E= =p] 


Google Profile Picture.png 
PNG Be 
12.5 KB 


History Provider Cache 
| 文件 
1.04 MB 
Last Tabs 
| 文件 
194 KB 
7-22 ”目录 中 打开 cmd.exe 


在 cmd.exe 中 打开 python 环境 ， 连 接 到 sqlite3 数据 库 ， 并 读 出 与 yinyuetai.com 相关 的 
Cookie。 执 行 命令 : 


全 


—=— 


a | 新 版 Chrome 支持 的 sqlite3 版 本 必须 是 3.8 以 上 的 ,而 默认 安装 的 Python 2.7 自 带 的 版 本 
是 3.6.21。 所 以 需要 到 sqlite3.org 上 下 载 Windows 版 本 的 新 的 sqlite3.dll 替换 。 如 果 不 愿 
意 替换 ， 那 就 把 Cookie.db 文件 复制 上 传 到 Linux 处 理 。 目 前 Linux 自 带 的 Python 2.7 自 

带 的 版 本 是 3.8.7.1。 

执行 结果 如 图 7-23 所 示 。 
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10100, 0, 0, 1, <read-write buffer ptr Ox7fO0fbeSc56d8, size 262 at Ox7fOf « 
be5c5698>, 0) 
119° 201, u'vchart.yinyuetai.com'’, u'CNZZ 人 
“000, 0; O, 1311. ~~354200, 1, 1, 1, <read-write buffer ptr 0x7f0fbe 
, Size 310 at Ox7fOfbe4b0498>, 0) 
. 133: .JO, u'vchart.yinyuetai.com’, u'CNZ Ga» Es ars 
-000, G, 0, 1311 °* ~"" 154200, 1, 1, 1, <read-write buffer ptr 0x7f0fbe 
, Size 326 at 0x7f0fbe5b6960>, 0) 
271 1, u'www.yinyuetai.com', u'CNZZ. 5G", wt", wir", a ”0 
10, 0, G, 1311 “4100, 1, 1, 1, <read-write buffer ptr 0x7f0fbeSdc 
c88, size 278 at Ox7£f0fbeSdcc48>, 0) 
(13 ; B9. 20, u'so.yinyuetai.com', u'CNZ 50456', mT u's", id. < 
91¢ 300, 0, 0, 13111 “*=""73100, 1, 1, 1, <read-write buffer ptr 0x7f0fbe4b04 
d8, size 310 at Ox7f0fbe4b0498>, 0) 
. BB 0, u*.yinyueteai.com’, u'searchSip!, ur u's", 0; O; G, 1: ` 
3100, 0, 0, 1, <read-write buffer ptr 0x7f0fbe5c56d8, size 262 at O0x7f0fbe 


-87 )0, u'www.yinyuetai.com', u'route', u'', u'/', 0, 0, 0, 13 
' 100, 0, O, 1, <read-write buffer ptr 0x7f0fbe5c5448, size 262 at Ox7f0fbeS 


JO21 10, u'v.yinyuetai.com', u'CNZZ™ 50456", Ue u/s 13 49 

"100, 0, 0, 13116 4100, 1, 1, 1, <read-write buffer ptr is 

8, size 310 at Ox7f0fbe4b0498>, 0) LJ 
>>> J < 


7-23 ”从 文件 中 获取 Cookie 


已 经 将 所 有 相关 的 Cookie 列 出 来 了 。 如 果 要 把 这 些 数据 转换 成 可 使 用 Cookie， 还 得 继 
续 将 其 中 的 encrypted value 字段 解码 。 这 个 是 可 以 做 到 ， 得 安装 别 的 Python 模块 ， 相 当 不 方 
便 。 使 用 这 种 方法 获取 Cookie， 好 处 是 所 有 的 Cookie 内 容 都 一 网 打 尽 ， 连 用 户 名 密码 都 可 
以 用 明文 解读 出 来 坏处 则 是 要 把 这 些 数据 转换 成 Mechanize 可 用 的 Cookie EERI, Emi 
要 安装 其 他 的 第 三 方 模块 ， 有 些 鸡肋 。 


3 . 利用 工具 获取 Cookie 


最 后 的 方法 就 是 利用 网 络 工 具 ， 在 浏览 占 回 服务 费 发 送 数 据 时 截取 这 些 数据 ， 这 些 数 据 
不 仅仅 包括 Cookie， 还 有 一 些 其 他 的 信息 ， 而 且 这 些 信息 Mechanize 还 都 用 得 上 ， 价 直 是 完 
美 。 这 种 方法 与 Mechanize 相当 的 合 招 ， 都 是 往 服 务 占 发 送 数 据 ， 区 别 仅 在 于 一 个 是 浏览 右 
发 送 ， 一 个 是 Mechanize 模块 发 送 而 已 。 

截取 浏览 堪 和 服务 器 之 间 的 网 络 工 具有 很 多 ， 比 如 Fiddler, Wireshark 和 BurpSuite， 也 
有 浏览 器 自 带 的 ， 比 如 Firefox 的 Httpfox 和 Chrome 开发 工具 。 个 人 建议 是 直接 使 用 Chrome 
的 开发 工具 ， 如 果 Chrome 开发 工具 截取 的 数据 不 能 使 用 〈 这 种 可 能 性 极 低 ) 或 者 没 使 用 
Chrome 浏览 融 ， 那 束 使 用 Fiddler 或 BurpSuite。 


7.4.3 获取 Cookie 


1 . Chrome 开发 工具 获取 Cookie 


Chrome Ùi Was ArH FAR REAR SRK, BAER EME. FEMA HIT IFA 
标 网 站 并 登录 ， 进 入 目标 页 面 ， 按 F12 键 ， 打 开 Chrome 开发 工具 ， 如 图 7-24 所 示 。 
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OF 


】 关 于 膏 悦 台 手 机 APP 升 级 后 的 打 榜 公告 


“CG 有效 的 统计 数据 ,杜绝 秋 意 刷 榜 的 行为 。 自 2016 年 8 月 22 日 (下 周一 ) 起 , 畜 悦 tai 用 户 需要 棕 移 
F 载 育 悦 台 手机 版 小 本 ,其 产生 的 三 项 数据 (移动 濡 描 放 、 移 动 庙 下 载 、 移 动 庙 分 享 ) 才 能 够 有 效 计 入 打 榜 成 绩 , 而 | 旧 


随时 随地 TEHA. 更 新 提 栈 :105 用 户 2.0 版 本 以 下 须要 和 害 载 现 有 版 本 重新 下 载 暴 新 版 客户 访 :2.0 贱 本 
Jee TFT] ER~ 二 新 下 载 。 安 章 用 户 4.0 版 本 以 下 可 以 直接 寺 新。 下 新 地 址 : 


«.com/apps/ mobile 


独家 站 所 B.A.P 安 可 演唱 会 StarTV 独 家 让 ,，， 


Sources § Network § Timeline Profiles Application Security Audits 


Preserve log is cac Offline No throttling 


Regex Hide data URLs OM XHR JS CSS Img Media Font Doc WS Manifest Other 


Recording network activity. 


n a request or hit FS to record the reload 


7-24 Chrome 开发 工具 


在 Chrome 浏览 器 下 方 的 开发 工具 中 单 击 Network 标签 页 。 按 F5 键 ， 刷 新 页 面 。 会 在 浏 
览 器 中 得 到 很 多 数据 ， 然 后 在 Filter 杠 中 输入 目标 页 面 的 关键 词 bulletin， 找 到 发 送 请 求 的 
Request， 如 图 7-25 所 示 。 


CŒ | D iyinyuetai.com/new 


U Sm MV” æ Ve 


v17 


加 我 的 私信 


【公告 】 关 于 童 悦 台 手机 App 升 级 后 的 打 榜 公告 
为 了 能 遂 在 移动 客户 谋 更 有 效 的 统计 数据 ,村 给 释 襄 刷 榜 的 行为 。 自 2016 年 8 月 22 日 (下 局 一 ) 起 , 言 悦 ta 月 疡 需要 将 移 
动 宫 户 就 升级 到 系 新 版 本 ,其 产生 的 三 项 数据 (移动 端 措 放 、 和 移动 端 下 载 、 移 动 就 分 序 ) 才 能 入 有 效 计 入 打 榜 成 笋 ,而 所 
新 阁 户 启 的 柜 关 数据 棺 不 亚 计 入 。 更 新 捏 树 :IO05 用 户 2.0 站 本 以 下 弄 至 司 声 现 有 版 本 蛙 新 下 夭 是 新 版 客户 遍 ;2,0 版 本 
以 上 可 以 直 摊 更 着 不 亏 雪 重 蚀 下 载 ， 安 点 用 户 4.0 白 本 以 下 可 以 下 控 更 新 。 更 新 地 址 ， 
http://www. yinyuetai.com/apps/ mobile 


8578 Star Tit Step. A. PLa SES Sta TWEE... 


Ly 4] Elements Console Sources Network! Timeline Profiles Application Security Audits AdBlock 


| 9 ma Y Jew I= | Preserve log Diseble cache Offline No throttling v 
bulletin IS Regex © Hidedata URLs A) XHR 5 CSS Img Medie Font Doc WS Manifest q 


Method | Status Type Initiator Size Time Timeline — Start 


bulletin = 10.7 KB 113 ms 
|_| ?tid=1635&type=1&uid=a4we.. GET 3 C bulletin930 


2 / 62 requests | 11.1 KB / 269 KB transferred | Finish: 2.6 min | DOMContentLoadec: 838 ms | Load: 1.05 s 


7-25 find Request 
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单 击 这 个 Name X bulletin 的 Request， 在 打开 的 界面 中 单 击 Headers 标签 ， 得 到 这 个 
Reqeust 的 Headers〈 这 里 也 有 Cookies 标签 ， 但 它 的 表现 形式 是 表格 ， 男 外 所 需 的 数据 不 只 
是 Cookie， 还 有 User-Agent， 所 以 这 里 选择 Headers 标签 ) ， 如 图 7-26 所 示 。 


D iyinyuetai.com/news/bulletin 


Se 


私信 HSS 


【公告 】 关 于 富 悦 台 手 机 APP 升 级 后 的 打 枕 公告 
为 了 弦 葡 五 移动 志 户 湛 志 让 允 的 沉 计 效 渤 , 社 作 和 喜剧 羽 的 行为 。 目 2016 年 8 月 22 日 { 下 启 一 ) 茎 , 吾 协 tai 用 广 专 所 棕 称 
动 守 户 计 升级 到 岗 新 胡 本 ,其 产 牛 的 三 项 数据 {移动 流 摊 放 、 竺 动 流 下 芝 ，、 黎 动 访 分 享 ) 才 能 种 有 效 计 入 打 档 成 党, 而 |9 
he rinilessimeTSrt A. RS OSE 2 eS PSSM SSS Pere; 2 Oe 
JF UBSSaTSSbare. SSSQ405S FOLE, E: 
http://www. yinyuetal.com/apps/ mobile 


8578 Star VES ESB APS EES Star lVieee... 


ole Sources Network Timeline Profiles Application ecu 


J Preservelog L Disablecache WW Offline No throttling 


J Hide data URLs D XHR JS CSS Img Media Font Doc WS Menifest 


spplication/xhtml+xml, applicetion/x#1;q=-0.9, image/weop, */*;a<8.8 
zip, deflate 


» sdch 
anquage: en-US, en;q=6.8,zh-CN; q=0.6, th; q=8.4, zh-TW; q=0.2 


Z7; tid-aol j “lLco; route-lfc q 
Hvv; autoPlayer=0; _ga=GAl ee 70831739; 
i 2normal 


yuetai_uicea4wc 
ref=2; JSESSIONID-aaa 
”533fj pusnState=true; u_inf=2155 
mort “ayltk2FbigheadImgé2Fheader39.gif; token=t ~= FBI 


99%46. comkO2l norma 


7-26 headers 
将 这 个 Request Headers 里 的 所 有 数据 都 复制 到 一 个 文本 文件 headersRaw.txt 中 备用 。 
2 . BurpSuite 获取 Cookie 


如 果 不 嘉 欢 Chrome 浏览 右 的 开发 工具 ， 或 者 没有 使 用 Chrome 浏览 堪 ， 那 也 可 以 使 用 工 
具 来 获取 Cookie。 这 里 笔者 选择 的 是 BurpSuite 工具 ，BrupSuite 工具 简单 方便 ， 路 平台 运 
行 ， 功 能 强大 。 如 果 要 说 明 BurpSuite 的 其 他 功能 ， 恐 怕 得 一 本 厚 书 才 行 。 这 里 只 使 用 
BrupSuite 最 简单 的 抓 包 功 能 。 打 开 BurpSuite 工具 ， 选 择 Proxy 标签 下 的 Intercept 标签 ， 将 
Intercept is on 按钮 激活 。 这 样 设 置 将 截取 浏览 器 的 Request， 但 不 回 服 务 器 上 发送， 如 网 7-27 
所 示 。 


Burp Intruder Repeater Window Help 


Í Target | Proxy | Spider | Scanner | intruder | Repeater | Sequencer | Decoder | Comparer | Extender | Options | Alerts 


HTTP history | WebSockets history Options | 


7-27 BurpSuite 


BurpSuite 监控 的 端口 是 本 机 的 8080 端口 ， 所 以 必须 将 浏览 器 的 代理 端口 设置 为 
127.0.0.1:8080。 这 个 设置 根据 选择 的 浏览 器 不 同 而 选择 不 同 的 方法 设置 。 如 果 使 用 的 是 
Chrome， 建 议 使 用 SwitchySharp 插件 。 如 果 使 用 的 是 FireFox， 建 议 使 用 FoxyProxy。 至 于 其 
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他 的 浏览 器 ， 就 干脆 将 系统 代理 设置 成 127.0.0.1， 然 后 将 所 有 浏览 器 设置 成 使 用 系统 代 
理 好 了 。 


打 来 浏览 器 ， 设 置 好 代理 ， 然 后 刷新 登录 后 的 目标 网 页 。BurpSuite 将 得 到 数据 ， 
如 图 7-28 所 示 。 


€ > CC [iyinyuetai.com/news/bulletin 


POST /onunload?start=2003 &date=20 16/09/0182 
Host: 1.yinyuetai.com 

Content-Length: 0 

Accept: text/javascript, text/html, application/xml, text/xml, */* 
Orlgin: http: //i.yinyuecai.con 

jae inning ALI Ea eSt 


D17:03:10&seconds=200361sk3te9o HTIP/1.1 


J * MEO, 
Referer: EEEn: ffà. een etn ep 
Pp a role segs 


a z cr | | a Ds cim L] à 

Seer: pine een: oa F tid-abT TlLco; 

oute=Lfc : 247feicé; yyt_pref-2; JSESSTIONID~ac ] uklivv; autoPl 
ga7GAlL.= . 7OB3173S; searchSID-96: “"““66L630£; pushState-truc; 


| inft-21557~ “omt Olnormal usecs’Ofhttps3as%: 
hd Img’ 2 Fheader3S. git; token f£SSe° 5dldb.0; 


oken3-=70d .- 
NZZDATA13304567cnzz ¢ ~ 
p2=7£13 368178 


dldh 3LAml; 
-3664-http$253A%252F%4252FyyV, yinyuctai.coa: 


7-28 ”BurpSuite 获取 headers 


主要 是 获取 Cookie 和 User-Agent 的 数据 。 将 这 个 Raw 标签 内 的 所 有 数据 复制 到 文本 文 
件 headersRaw.txt 中 备用 。 

这 两 种 获取 headersRaw.txt 文件 的 方法 任 选 一 种 都 可 以 ， 然 后 为 它 写 一 个 程序 ， 将 所 需 
的 数据 按照 所 需 的 格式 导出 来 。 打 开 Eclipse， 创 建 PyDev Project 项 目 getBulletin, 


headersRaw.txt 文件 复制 到 getBulletin 项 目下 ， 并 在 项 目下 创建 一 个 名 为 getHeadersFromFile 
的 pyDev Modules. 


【示例 7-2] getHeaders.py 的 内 容 如 下 : 
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测试 getHeadersFromeFile.py, 'f-c Eclipse 图 标 栏 的 运行 图 标 ， 执 行 结 果 如 图 7-29 所 


| 


19 #! /ysr/din/sya pythen 
#-*- c : i | 
a È getBulletin x oding: Wis 
b |P) getHeadersFromFile.py 
B headersRaw.txt 
b @ DAProgram Files\pytho 
: > = 8 
9 
10> def getHeaders (fileName): 
1 headers = [ 
LD MechanizeAndBs4 headerList - [‘User-Agent', ‘Cookie'] 
W moiveBS4 with open(fileName, ‘r') as fp:| 
aie i for line in fp.readlines(): 
D qidianBS4 : :name, value = line.split{':', 1) 


G test ` | df name in headerList: 


headers.append( (neme.strip(), value.strip())) 


D winningNumBS4 ee 
return headers 


if _ name == main “: 
headers = getHeaders( heacersfaw. txt’) 
print headers 
| ‘ + | 
© Console 器 Ri pyunit a X %Q DlA RGG tE- mrena 
<terminated > E:\save\sync\code\crawler\bs4Project\qetBulletin 
[('Cookie’, ‘yinyuetai_uid=a4w ' ‘ANbcQyMz7; tid=abr™ ~~~ 


7-29 run getHeaders.py 


已 经 将 Cookie 和 User-Agent 过 滤 出 来 并 按照 格式 排列 好 了 ， 最 后 所 得 到 的 headers 是 一 
个 包含 了 2 个 元 组 的 列表 。 


7.4.4 使 用 Cookie 登录 获取 数据 
获取 音 悦 台 网 站 个 人 站 内 公告 的 充分 条 件 已 经 具备 了 。 下 面 开始 使 用 Mechanize 和 bs4 
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来 获取 个 人 公告 数据 。 

打开 Eclipse， 进 入 刚 建 立 的 getBulletin 项 目 中 ， 将 以 前 项 目 中 使 用 的 mylog.py 复制 到 
getBulletin 项 目下 ， 并 在 项 目 中 创建 一 个 新 的 PyDev Module ， 文 件 名 为 
getYinyuetaiBulletin.py. 


【示例 7-3] getYinyuetaiBulletin.py 的 内 容 如 下 : 
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单 击 Eclipse 图 标 栏 的 运行 图 标 ， 执 行 结 果 如 图 7-30 Ara. 
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= bs4Project - PyDev - getBullet 


File Edit Source Refactoring Navigate Search Project Pydev Run Window Help 


PT ici ee we) Oy he eel plete = Quick Access :) Œ | & (E) +s 


HE PyDev Package... $2 = OF [Bl getYinyuetaiBulletin 32 [P] getHeadersFromFile headersRaw.txt 
B| v 5 self.log.info('beging run spider module’) 


看 Bulleti m items = [] 
: geteu etin responseContent = self. getResponseContent (self. url) 
=| bulletin. soup = BeautifulSoup(responseContent, 了 
bulletin.txt p ful p po 
b [B] getHeadersFromfile. py : tags = soup.find_all(‘diyv', attrs={'class': ‘item_info'}) 


: : s for t in tags: 
getYinyuetaiBulletin.log aa ae Sars 


> [P] getVinyuetaiBulletin.py 3 item.title = tag.find('p', attrs={‘class‘:'t 
headersRaw.txt item.content = tag.find('p’, attrs={‘class':' 

i items.append(item) 

> [E] mylog.py self.pipelines(items) 


“| bulletin.txt - 记事 本 


ie ate hae (2016— sith, Be 8:28: £ ay 
ci nen Bist 和 


i, M 


pA BS 本 重新 下 载 最 新 版 客户 端 ;2. 0 版 本 以 上 可 以 直接 更 新 不 需要 重新 下 载 。 


更 新 http://www. yinyuetai. com/apps/mobile 


tarT TY 独家 直 .. (2016-08-04 10:36:17) 
J] 3A7 in LARS 


TAAS he 还 有 在 现场 也 看 不 到 的 台 前 幕后 各 种 福利 视 


thttp://feature. yinyuetai. com/bap 


图 7-30 MC PUA A 
已 经 成 功 地 获取 了 音 悦 全 的 个 人 公告 ， 如 图 7-31 所 示 。 


【公告 】 关于 音 悦 台 手机 ApP 升 级 后 的 打 榜 公告 


为 了 能 和 够 在 移动 客户 请 更 有 效 的 统计 数据 , 杜 巡 释 意 刷 榜 的 行为 。 自 2016 年 8 月 22 日 (下 周一 ) 起 , 言 悦 tai 用 户 需 要 将 移 
动 客户 端 升 级 到 最 新 版 本 ,其 产 生 的 二 项 数据 (移动 丹 擅 放 、 移 动 请 下 载 、 移 动 端 分 享 ) 才 能 咎 有 效 计 入 打 榜 成 续 , 而 旧 
版 客户 病 的 相关 数据 将 不 再 计 入 。 更 新 提醒 :IO05 用 户 2.0 版 本 以 下 须 和 要 条 载 现 有 版 本 重新 下 载 最 新 版 客户 端 ;2.0 版 本 
以 上 可 以 直接 更 新 不 雳 委 重 新 下 载 。 安 卓 用 广 4.0 版 本 以 下 可 以 直接 更 新 。 更 新 地 址 : 
http://www.yinyuetai.com/apps/mobile 


8 月 7 日 StarTV 独 家 直播 B.A.P 安 可 演唱 会 StarT\ 独 家 直 .… 


【独家 】8 月 7 日 StarTV 独 家 直播 B.A.P 安 可 演唱 会 Start VA) 7EBA PRR) mise! aaea 
BF- FLEERSHS PASS Seas Samat TB Sotiris 
Di :http://feature. yinyuetai.com/bap 


图 7-31 目标 网 页 上 的 公告 


与 网 站 上 的 个 人 公告 比较 一 下 ， 完 全 一 样 ， 扑 虫 没有 问题 。Mechanize 使 用 Cookie & 
K, BRS Cookie 的 生存 期 问题 ， 算 是 个 非常 好 的 办 法 ， 要 比 urllib2 模块 模拟 浏览 器 要 方便 
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- — 
/.D 本 章 总 结 


Mechanize ANE, “EAN AE FS BME GRAY FE ERE, (A CEFR REIN (Be kE ER E yy 
Bi, Here Me ye RU ESE Mechanize 来 获取 。 大 多 数 时 候 的 确 可 以 用 别 的 模块 来 奉 
代 Mechanize， 这 样 一 来 过 程 就 未 免 有 些 复杂 了 了。 虽然 朴 虫 程序 追求 的 只 是 结果 ， 过 程 是 否 
繁杂 对 结果 没有 影响 ， 但 能 用 人 简单 的 模块 解决 问题 就 没 必 要 用 复杂 的 方法 。 
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Python PX 2% E E HP Se PR O NY AS E A ES a 2 SE RE TRA A A, ty AE AS a E 
JavaScript 获取 数据 的 站 点 。Python 对 JavaScript 的 支持 不 太 好 。 想 用 Python 获取 网 站 中 
JavaScript 返回 的 数据 ， 唯 一 的 方法 就 是 模拟 浏览 占 了 。 这 个 模拟 浏览 旨 跟 Mechanize 模块 和 
有 不 同 ，Mechanize 模块 并 不 文 持 JavaScript， 有 所 以 这 里 需要 一 于 可 以 模拟 真实 浏览 占 的 模 
块 Selenium 模块 。 


olga > 


2¢3 Selenium 模块 


Selenium 是 一 套 完 整 的 Web 应 用 程 厅 测 试 系统 ， 它 包含 了 测试 的 录制 (Selenium 
IDE) 、 编 写 及 运行 (Selenium Remote Control) 和 测试 的 并 行 处 理 (Selenium Grid) 。 
Selenium 的 核心 Selenium Core 基于 JsUnit， 完 全 由 JavaScript 编写 ， 因 此 可 运行 于 任何 文 持 
JavaScript 的 浏览 堪 上 。 


8.1.1 Windows 下 安装 Selenium 模块 
在 Windows 中 安装 Selenium 模块 还 是 采用 最 简单 的 pip 安装 ， 执 行 命令 : 
pip install selenium 


执行 结果 如 图 8-1 所 示 。 


bas C\Windows\system32\cmd.cxe 


N = Wsers \king pip install selenium 


ollecting Se 


Downloading se lenium—?2 _53 _6—py2 _-py3—none—an y-whl C884kB> | 
38x i| : 337kB 277kB/s eta 8:00:88 
39x ! : 348kB ?78kB/s eta 8:00:87 


40x iI ! 358kB ?78kB/s cta 6:06:67 
4ix i i 368kB 78KB/s cta 8:00:08 
42x I i 378kB 69kB/s eta 8:00:08 
43% i i 387KB 77kKB/s eta 6:66-6 


45% i 
46% i 
47x i 
48% ! 


1 399KB 77KB/s eta 8:08: 

! 409KkB SikB/s eta 0:08: 
! 419kB SSkB/s eta G:66 | 
! 43BkB 68kB/s eta 0:80 


49x i : 446KB 68kB/sc eta 6:66 
56x i ! 456kB 6G?kB/s cta 6:0 
52x i i 46ØkB SSkB/s eta 6:6 
53% i i 471kB 66kB/s eta 6-6 


54% i 
55% | 
S64 i 
57x | 


i 481kB 49KB/s eta 8: 

+ 491kB 46KB/s eta ÐP: 

: SHIKB 49kB/s eta Ø E 
! 512kB 58kB⁄s eta Ø 
59x | ! 522kB S8kB/s eta 日 
66x |! 1 S32kB S4kB/s cta 
61x i S42kB 49kB/s eta 
627z i i 552kB S4kKB/s eta -~ 


8-1 Windows 安装 Selenium 
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Windows 中 安装 Selenium 完毕 ， 可 以 直接 使 用 了 。 


8.1.2 Linux 下 安装 Selenium 模块 
在 Linux 中 安装 软件 尽 可 能 地 使 用 apt-get， 这 样 便于 管理 软件 。 执 行 命令 : 
| apt-get install Python-selenimm —— 


执行 结果 如 图 8-2 所 示 。 


Last login: Wed Sep 7 01:00:57 2016 from 192.168.2.99 
king@debian:~$ su 


密码 : 
i HA ATI... na 
读 取 状态 信息 完成 


chromedriver firefoxdriver 


下 列 【 新 】 软 件 包 将 被 安装 : 


python-selenium 


SRI 0 个 软件 包 ， 新 安装 了 1 KAFE, KHR 0 个 软件 包 ， 有 0 个 软件 包 未 被 升级 


需要 下 载 74.1 kB 的 软件 包 
解压 缩 后 会 消耗 掉 497 kB 的 额外 空间 。 
获取 : 1 http://mirrors.163.com/debian/ jessie-backports/main python-selenium all 
2.48. eee | 2~bpo8+1 [74.1 kB] 

FR 7 > FEBY of (351 kB/s) 
正在 选中 未 选拔 的 软件 包 python-seleni 
(正在 读 取 数据 库 . | 系统 当前 共 安装 有 9 94130 个 文件 和 目录 。 ) 

正 准 备 解 包 . .-/python-selenium | 2.48.0+dfsgi-2~bpo8+1_all.deb ... 
正在 解 包 uted -selenium (2.48.0+dfsgl-2~bpo8+1) ... 
正在 设置 python-selenium (2.48.0+dfsgl-2~bpo8+1) ... 
root@debian:/home/king# exit 


8-2 Linux 安装 Selenium 


Linux 中 安装 Selenium 完毕 。 


3.2 浏览 器 选择 


在 编写 Python WEKE, EHEJ Selenium 的 Webdriver。Selenium.Webdrive 不 可 能 
文 持 所 有 的 浏览 堪 ， 也 没 必要 文 持 所 有 的 浏览 堪 。 实 际 上 目前 流行 的 浏览 器 核心 也 就 是 那么 
几 种 。 先 看 看 Selenium.Webdriver 支持 哪 几 种 浏览 器 


8.2.1 Webdriver 支持 列表 


查看 横 块 的 功能 ， 最 简单 也 是 最 方便 的 方法 就 是 直接 使 用 help 命令 。 打 开 cmd.exe T 
具 ， 执 行 命令 : 
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执行 结果 如 图 8-3 所 示 。 


# specific language governing permissions and Limitations 
# under the License. 


PACKAGE CONTENTS 
android Cpackage> 


blackberry Cpackage> 
chrome (package) 
common Cpackage> 
edge Cpackage>) 
firefox <Cpackage> 

ie Cpackage> 

opera Cpackage> 


phantomjs Cpackage> 
remote Cpackage> 
safari Cpackage> 
support Cpackage> 


8-3 webdriver 支持 列表 


在 以 上 列表 中 ，android 和 blackberry EBAY as, MAGA PH $e) vim HTH A at 
虽然 也 文 持 JavaScript, {ARR PC mA De ast AEA. Common 和 support 也 可 以 先 去 
fii, # FRA Chrome. Edge. Firefox, IE. Opera, Phantomjs 和 Safari f o Chrome, 
Dege, Firefox, IE. Opera, Safari E$% WL, Mj PhantomJS 则 有 些 名 不 见 经 传 。 

PhantomJS 是 一 个 基于 WebKit 的 服务 器 羡 JavaScript API。 它 全 面 文 持 Web 而 不 需 浏 览 
器 支持 ， 其 快速 、 原 生 支 持 各 种 Web 标准 : DOM 处 理 、CSS 选择 器 、JSON、Canvas 和 
SVG. PhantomJS 可 以 用 于 页 面目 动 化 、 网 络 监测 、 网 页 截屏 ， 以 及 无 界面 测试 等 。 

无 界面 ， 则 意味 看 开销 小 ， 也 意味 独 速 度 快 。 网 上 有 牛人 测试 过 ， 使 用 Selenium 调用 上 
面 的 浏览 器 ， 速 度 六 三甲 分 别 是 PhantomJS、Chrome 和 IE (remote 调用 HtmlUnit 速度 才 是 
最 快 的 ， 但 HtmlUnit 对 JavaScript 的 文 持 不 太 好 ) ， 开 销 小 、 速 度 快 对 JavaScript 的 文 持 也 
不 错 。 唯 一 的 缺点 是 没有 GUI， 但 在 服务 器 下 运行 程序 时 ， 这 又 成 了 优点 。 所 以 无 须 犹 豫 ， 
就 选 PhantomJS f. Hb, EMC JavaScript 才能 返回 数据 的 网 站 时 ， 没 有 比 Selenium 和 
PhantomJS 更 适合 的 组 合 了 。 


8.2.2 Windows 下 安装 PhantomJS 


PhantomJS 的 官网 主页 是 http://phantomjs.org/。 在 浏览 器 中 打开 主页 ， 单 击 Download 
V2.1 按钮 进入 下 载 页 血 ， 如 图 8-4 所 示 。 
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Python 28 MG KAR 


SOURCE CODE DOCUMENTATION API 


Full web stack 
No browser required 


Phantoms is a headless WebKit scriptable with a JavaScript API. It has fast and 
native support for various web standards: DOM handling, CSS selector, |SON, Canvas, 


and SVG 


"Downtosdvat) Get started 


Community: E] Read the release notes = Join the mailing list 


Phanton)S is an optimal solution 


HEADLESS WEBSITE TESTING SCREEN CAPTURE PAGE AUTOMATION 
Run functional tests with Programmatically capture web Access and manipulate webpages 


8-4 


进入 下 载 页 面 后 ， 选 择 Windows 版 本 的 PhantomJS 下 载 软件 ， 如 图 8-5 所 示 。 


PhantomJS 官网 主页 


E phantomjs.org/dow nload htm| 


SOURCE CODE DOCUMENTA 


Please take a moment to improve this document with anything that could be useful 


Documentation 
Get Started 


Download 
Build 

Releases 
Release Names 
REPL 


Headless Testin 
Screen Capture 
itori 
Page Automation 
Inter Process Communicat 


Command Line Interface 


Get Help 
D Troubleshooting 


Downlo 


Note There is no need to ask when a binary package f 
packagers are fully aware of every release and they gi 
available. 


Windows 


Download phantomjs-2.1.1-windows.zip (17.4 MB) arid 


The executable phantomjs.exe is ready to use. 


Note: For this static build, the binary is self-containefl 
a fresh install of Windows Vista or later versions. The 
anv other librarie 


Mac OS X 


Download phantomijs-2.1.1-macosx.zip (16.4 MB) and 


8-5 下 载 Windows 版 本 PhantomJS 
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因为 未 知 的 原因 ， 直 接 用 浏览 器 下 载 PhantomJS 速度 极 慢 。 有 时 根本 就 没 反 应 ， 建 议 使 
用 迅雷 下 载 PhantomJS。 迅 雷 上 有 用 户 曾 下 载 过 PhantomJS 后 ， 后 面 的 迅雷 用 户 再 次 下 载 速 
度 就 很 快 了 。 

下 载 完 成 后 ， 解 压 压 缩 包 ， 然 后 将 exe 文件 加 入 到 系统 路 径 中 就 可 以 了 。 重 新 设置 系统 
路 径 是 很 麻烦 的 事情 。 还 记得 安装 Python 2.7 的 过 程 吗 ? 安装 程序 已 自动 将 Python 2.7 的 路 
径 加 入 到 了 系统 路 径 中 了 ， 反 正 PhantomJS 也 是 配合 Python 使 用 的 ， 直 接 将 解压 后 的 
PhtomJS.exe 复制 到 Python 2.7 的 目录 中 就 可 以 了 ， 如 图 8-6 所 示 。 


Nn a, 
“a ph. MTSN Eaa 


ZAHA SAO IRO) HO) 选项 (N) 帮助 (H) 


SSBoye ee sz. 


ae 大 小 ” 压缩 后 大 小 类 型 
| 本 地 磁盘 


Me phantomjs.exe 18,587,648 18,137,035 应 用 程序 


文件 (F) SSE EEV) IAT) ”帮助 (H) 


组 织 了 包含 到 库 中 v 


Se as 
me 下 载 
= =o 
通 最 近 访问 的 位 置 
© | OneDrive 


= 
ae 
= 视频 
=) 图片 
a 文档 
a) 迅雷 下 载 
d EF 
网 REE 
B king 
上 加 计算 机 
Ge 网 络 
F 控制 面板 


| Scripts 


共享 了 新 建文 件 夫 


DLLs 
TNE 


i | include 


MAS 


MA 


Tools 
| Ses 


A phantomjs.exe 
PhantomJS 


PhantomJS is a headless Web... 


_ qt.conf 
| CONF 文件 
| 7935 


8-6 Windows 设置 PhantomJS 环境 


在 Python 环境 中 测试 一 下 ， 如 图 8-7 Pra. 


Doc 
文件 去 


Ub 
FE 


selenium 


FE 


LICENSE.txt 
文本 文档 
python.exe 


2015/12/5 20:41 
27.5 KB 


» README.txt 


55.2 KB 
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6.1.7601] 
权 所 有 <c) 2009 Microsoft Corporation, 保留 所 有 权利 。 


: Wsers \king>python 


Python 2.7.11 (v2.7.11:6dib6a68£775. Dec 5S 2615. 26:46:3@> [MSC v.15@0 64 bit < 
AMD64>1] on win32 
ype “help”. “copyright”. “credits” or “license” for more information. 


>>> from selenium import webdriver 
8-7 Windows 中 测试 PhantomJS 环境 


Windows 下 的 PhantomJS 环境 已 配置 好 ， 可 以 直接 使 用 了 。 


8.2.3 Linux 下 安装 PhantomJS 


还 是 打开 PhantomJS 官网 的 下 载 页 面 ， 选 择 合 适 的 版 本 ， 使 用 迅雷 下 载 ， 如 图 8-8 所 
示 。 


€ C 15 phantomjs.org/download.htm! 


cAprore other libraries. 


Examples 

Best Practices Linux 64-bit 
Tips and Tricks 

Supported Web Standards 

Buzz 

Who's using Phantom|S? 

Related Projects 


Contribute 


D Contributing 

D Source Code Linux 32-bit 

D Test Suite 

> coe ig tO a Download phantomjs-2.1.1-linux-i686.tar.bz2 (23.0 MB) and extract 
Crash Reporting 

- Note: For this static build, the binary is self-contained. There is no r 
WebKit, or any other libraries. It however still relies on Fontconfig (t 
libfontconfig, depending on the distribution). The system must 
GLIBC_2.7. 

op king@debian: ~ 

Using username "king". 


Authenticating with public key "imported-openssh-key"” 


The programs included with the Debian GNU/Linux system are f 
the exact distribution terms for each program are described 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the e 
permitted by applicable law. 
Last login: Wed Sep 7 10:26:26 2016 from 192.168.2.99 


Linux debian 3.16.0-4-amd64 1 SMP Debian 3.16.7-ckt25-2+debé 


king@debian:~¢ |] 


8-8 Pat Linux 版 本 PhantomJS 


将 下 载 好 的 压缩 文件 上 传 到 Linux MEEKI, RJR KS AY Ay SCE BS h E A SRE 
/usr/local/bin 文件 夹 下 〈Linux 的 系统 路 径 有 和 很多， 随意 选 一 个 都 可 以 )。 打 开 Putty， 连 接 到 
Linux 上 ， 执 行 命令 : 


tar jxvf phantomjs-2.1.1-linux-x86 64.tar.bz2 
cp phantomjs-2.1.1-linux-x86 64/bin/phantomjs /usr/local/bin/ 
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ls -1 /usr/local/bin/ 


执行 结果 如 图 8-9 所 示 。 


1.1-linux-x86_64/examples/features.js 
1.1-linux-x86 64/examples/netsniff.js 
1.1-linux-x86 64/examples/walk through _frames.js 
1.1-linux-x86_64/examples/printheaderfooter.js 
1.1-linux-x8&6 64/examples/responsive-screenshot.js 
1.1-linux-x86 64/examples/countdown.js 
1.1-linux-x86_64/examples/detectsniff.js 
1.1-linux-x86_ 64/examples/simpleserver.js 
1.1-linux-x86_ 64/examples/postjson.js 
-1.1-linux-x86_64/examples/run-jasmine2.js 
1.1-linux-x86_ 64/examples/run-jasmine.js 
1.1-linux-x86_ 64/README .md 

1.1-linux-x86 64/LICENSE .BSD 
1.1-linux-x86 64/bin/ 
1.1-linux-x86 64/bin/phantomjs 
1.1-linux-x86 64/third-party.txt 
1.1-linux-x86 64/ChangeLog 
/ 


:/tmp# cp phantomjs-2.1.1-linux-x86 64/bin/phantomjs /usr/local/bin/ 
3 pin 


SRE 66344 
-rWXr-xr-x 1 root staff 67932064 9 月 7 10:46 phantomjs 
root@debian: /tmp# 


8-9 Linux 中 设置 PhantomJS 环境 


在 Python 环境 中 测试 一 下 ， 如 图 8-10 所 示 。 


king@debian:/tmp$ python 
Python 2.7.9 (default, Mar 1 2015, 12:57:24) 
[GCC 4.9.2] on linux2 


8-10 Linux 中 测试 PhantomJS 环境 


Linux 下 的 PhantomJS 环境 已 配置 好 ， 可 以 直接 使 用 了 。 


3 ° 3 Selenium&PhantomJS 抓 取 数据 


Selenium 和 PhantomJS 配合 ， 可 以 模拟 浏览 占 获 取 包 括 JavaScript 的 数据 。 问 题 是 本 文 
是 讲 扑 虫 的 ， 现 在 不 单 要 获取 网 站 数据 ， 还 需要 过 滤 出 “有 效 数 据 ” 才 行 。 这 里 就 不 用 麻烦 
bs4 了 实际 上 非 要 用 bs4 也 不 是 不 可 以 ) ，Selenium 本 身 就 带 有 一 套 自己 的 定位 过 滤 函 
数 。 它 可 以 很 方便 地 从 网 站 返回 的 数据 中 过 小 出 所 需 的 “有 效 数 据 ”。 


8.3.1 获取 百度 搜索 结果 


还 是 那 句 老话 ， 想 知道 Python 模块 最 详细 的 用 法 ， 直 接 用 help 函数 就 可 以 了 。 鉴 于 
Selenium.Webdriver 的 help 文件 太 大 ， 分 屏 显示 又 不 那么 方便 ， 干 脆 将 帮助 文件 保存 到 文件 
中 慢 慢 查看 。 执 行 命令 : 
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一 定 要 加 上 browser.quit()， 否 则 cmd.exe 在 执行 exit 时 会 无 法 退出 。 


执行 结果 如 图 8-11 所 示 。 


RAS 6.1.7601] 
有 cc) 2009 Microsoft Corporation. 保留 所 有 权利 。 


: Wsers \king>python 

Python 2.7.11 (v2.7.11:6dib6a68fF775. Dec 5 2615, 20:40:30) [MSC v.15@0 64 bit < 
AMD64>1 on win32 

ype “help”. “copyright”. “credits” or “license” for more information. 

>>> from selenium import webdriver 

>> import sys 

>> browser = webdriver.PhantomJ$ (> 


find_element (self, by= id, value=None 


yz ETETETT ‘ ment_by_* methods. 


Use the corresponding find_element_by_* instead of this. 


:rtype: WebElement 


find_element_by_class_name(self, name) 


— 
AS ‘al od lll ad J at}. Cuil. 


:Args 


一 nene: The class name of the element to find. 


:Usage: 
driver. find_element_by_class_name(’ foo’ ) 


find_element_by_css_selector (self, css_selector) 


一 3 — 
ads 2a 21 et: Dy SS Sele ol. 


8-11 获取 help 文件 


想 获 取 “ 有 效 信息 ”， 第 一 步 当 然 是 网 站 获取 返回 数据 ， 第 二 步 就 是 定位 “有 效 数 据 ” 
的 位 置 ， 第 三 步 就 是 从 定位 中 获取 “有 效 数 据 ”。 
就 以 百度 搜索 为 例 ， 使 用 百度 搜索 “Python Selenium”， 并 保存 第 一 页 搜索 结果 的 标题 
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和 链接 。 从 服务 器 返回 数据 ， 由 PhantomJS 负责 ， 获 取 返 回 的 数据 用 Selenium.Webdriver A 
带 的 方法 page_source， 例 如 : 


有 两 种 方法 可 以 得 到 搜索 结果 页 面 。 第 一 种 ， 百 度 主 页 还 是 使 用 get 方式 上 传 request. 
这 里 可 以 先 找 个 浏览 器 ， 打 开 上 百度 后 搜索 关键 词 。 再 把 返回 来 的 搜索 结果 的 URL 保存 下 来 用 
Selenium&PhantomJS 打开 ， 再 获取 返回 的 数据 。 第 二 种 ， 直 接 用 Selenium&PhantomJS 打开 
百度 的 主页 ， 然 后 模拟 搜索 关键 词 。 直 接 从 Selenium&PhantomJS 中 返回 数据 。 这 里 使 用 第 
二 种 方法 ， 可 以 很 清楚 地 看 到 Selenium&PhantomJS 获取 数据 的 过 程 。 

第 一 步 获取 搜索 结果 。 打 开 cmd.exe, 准备 好 环境 。 执 行 命令 : 


执行 如 图 8-12 所 示 。 


Microsoft Windows ChRAS 6.1. ] 
i 有 <c) 2009 Microsoft Corporations REMAR]. 


C: Users \king>pyt 
Python 2.7.11 Cv2. oe 11:6d1b6a68fF775. Dec 5 2615, 20:40:30) [MSC v.1500 64 bit < 


> 
>>> browser = narrate PhantonJ$ <> 
> du.com’ > 


>> Te seat EPSTS ETT TD 
r 


图 8-12 ”模拟 百度 搜索 


这 里 要 关注 一 个 函数 implicitly_wait()。 使 用 Selenium&PhantomJS 最 大 的 优势 是 支持 
JavaScript， 而 PhantomJS 浏览 器 解释 JavaScript 是 需要 时 间 的 。 这 个 时 间 是 多 少 并 不 好 确 
定 ， 当 然 可 以 用 time.sleep0 强 行 休眠 等 待 一 个 固定 时 间 。 可 这 个 固定 的 时 间 定 长 了 ， 浪 费时 
间 ; 定 短 了 ， 又 没 能 完整 地 解释 JavaScript. Implicitly wait 函数 则 完美 地 解决 了 这 个 问题 ， 
给 implicitly_wait 一 个 时 间 参 数 。Implicitly_wait 会 智能 等 每 ， 只 要 解释 完成 了 就 进行 下 一 
步 ， 完 全 没有 浪费 时 间 。 下 和 面 从 网 页 的 框架 中 选取 表单 框 ， 并 输入 搜索 的 关键 词 ， 完 成 搜索 
的 过 程 。 
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8.3.2 ”获取 搜索 结果 

第 二 步 定 位 表单 框架 或 “有 效 数 据 ” 位 置 ， 可 以 用 import 导入 bs4 来 完成 ， 也 可 以 用 
Selenium 本 身 目 带 的 函数 来 完成 。Selenium 本 喘 给 出 了 18 个 函数 ， 总 共 8 种 方法 从 返回 数 
据 中 定位 “有 效 数 据 ” 位 置 。 这 些 函 数 分 别 是 : 


这 18 个 函数 前 和 面 的 9 个 带 element 的 函数 将 返回 第 一 个 符合 参数 要 求 的 element， 后 面 9 
个 这 elements 的 函数 将 返回 一 个 列表 ， 列 表 中 包含 所 有 符合 参数 要 求 的 element。 命 名 是 9 个 
图 数 ， 为 什么 只 有 8 MAEM? EMRO, Air by 的 函数 ， 配 合 参 数 可 以 蔡 代 其 他 的 函 
数 。 例 如 : find element(by="id', value='abc') 就 可 以 替代 find element by id('abc")。 同 理 
find_elements(by='id', Value='abc") 也 可 以 蔡 代 find_elements_by_id(‘abc'). 

这 8 种 定位 方法 组 合 应 用 ， 灵 活 配 合 ， 可 以 获取 定位 数据 中 的 任何 位 置 。 个 人 觉得 ， 在 
使 用 浏览 占 请 求 数据 时 ， 用 find element by name ~ find element by class name 、 
find element by id. find element by tag name 会 比较 方便 。 一 般 的 表单 、 元 素 都 会 有 
name、class、id， 这 样 定 位 会 比较 方便 。 如 果 仅 仅 是 为 了 获取 “有 效 数 据 ” 的 位 置 ， 那 还 是 
find_element by xpath 和 find element by css 比较 方便 。 强 烈 推荐 find_element by xpath， 真 
的 是 超级 方便 。 

先 定 位 文本 框 ， 输 入 搜索 关键 词 并 回 服 务 器 发 送 数据 。 在 Chrome 中 打开 百度 主页 ， 碍 
看 源 代 码 页 面 〈 如 果 想 全 程 无 GUI， 也 可 以 直接 在 Selenium 中 用 page source 获取 页 面 代 
码 ， 保 存 后 再 慢 慢 地 搜索 ， 不 过 这 样 承 比 较 及 烦 了 ) 。 在 源 代 码 页 面 搜索 type=text， 也 就 是 
FT KA EA SCA, FLARE RUA 8-13 所 示 。 


280 


#88 Selenium 模拟 浏览 器 


> Œ view-source:https://www.baidu.com 


id=s_user_setting menu class= 
href=//www. baidu. com/gaoji/preferences. html target=_blank> 4%] YPS= 
href=//wwu. baidu. com/gaoji/advanced. html target=_blank? 高 级 搜索 </a> <a 
href=http://i. baidu. com/ny/history?from-index target=_blank> 搜索 历史 </a> <a class=s—feedback 
style=overflow:hidden href="#" onclick="return false: 意见 反馈 </a> </div> <span class=menu-arrow> 
<em></em> </span> </div></div><div class=clear></div><div id=head_wrapper class="s-isindex-wrap 
head_wrapper s-title-img “> <div id=s_fm class=s_form> <div class=s_form_wrapper id=s_form_wrapper><d 
id=lg class=s-p-top><img id=s_lg img 
src=" ”rwww baidu. com/img/2016 9 10logo 9c310a313fb6768260566c635f8f3996. gif” width=270 height=129 
usemap="#mp” > <map name=mp id=s_mp><area style=“cursor:pointer; outline:none;~ shape=rect 
coords="0, 0, 270,129” href=" //wwa, baidu. com/s?wd=sE5%ISHIGME SUB SHSBHESHSANEZRtN=SE pshlcisy xef5pbmh9~ 
target=_blank style=”outline:none;”title= “为 孩子 ， 终 出 新 世界 ” onmousedowm=“return 
ns_c({ fm i behs,’ tab: bdlogo J)” ></map> </div><a href=/ id=result_logo onmousedown=“return 
celf fw Z tab,’ tab’ : logo })*> <img 
>p https: //ss0. bdstatic. com/5aVlbigh Q230dCf/static/supermen/img/logo top caf9al46. png“ alt=“FIR EI 

Wave “到 百度 首页 > ble Ser name=f i -torm action=/s class=fn 

> > 2 kw wrap class= bg s_ipt_wr” 

GEIER er id=kw maxlength=100 re yy /span><input type=hidden 
name=rsy_spt value= =hidden name=rsvy_191d e= Uxdtdb2f900002dcT74"><input type=hidden 
name=issp value=l><input type=hidden name=f value=8><input type=hidden name=rsv_bp value=0><input 
type=hidden name=rsv_idx value=2><input type=hidden name=ie value=utf-8><input type=hidden name=rql ang 
value=""><input typeshidden name=tn value=“baiduhome_pg” ><span class="btn_wr s_btn_wr bg” 
id=s_btn_wr><input type=submit walue=" 白 度 一 下 ”id=su class="btn self-btn bg s_btn”></span><span 
class=tools><span id=mHolder><div id=mCon><span) 输 入 法 人 spam》《div> ul id=mlMenu><1i><a 


图 8-13 ”搜索 文本 框 位 置 


MA 8-13 可 以 看 出 文本 框 里 有 class. name. id 属性 ， 可 以 使 用 
find element by class name. find element by id find element by name 来 定位 。 执 行 命 
4; 


回 到 Chorme 中 百度 源 代 码 页 面 ， 搜 索 type=submit， 定 位 submit 按键 位 置 ， 如 图 8-14 
所 示 。 


© > C |8 view-source:https://www.baidu.com QOoOn= 


em em. span alv. daly. dıy class-clear alv. dlY 1q = | “a 
head wrapper s-title-ime “> <div id=s_fm class=s_form> <div c type=submit] TEADA ~ 
i lg class=s-p-top><img id=s_lg_ ing 
sre=” //mmw. baidu. com/ime/2016 9 10lozo 9c310a313£b6 76826056 6ch35£8F39996. gif” width=270 height=129 
usemap= fmp” > ‘map name=mp ic@=s_mp><area style=“cursor!pointer: outline:none; © shape=rect 
coords="0, 0, 270,129” href=” //mww. baidu. com S7Hd=4EONIS IGE SHB SHS SHE SHSANBZEtO=SE pshlcisy xef5buh9” 
terget=_blank style="outline:none;” title=” 汶 孩子， 给 出 新 世界 ” onmousedowm= ”return 
ns_cfT fn : behs’, tab’ > bdlogo })* ></map> /div) <a href=/ id=result_logo onmousedowm=“return 
clr tir: +t a tab’ *logo’})”> <img 
sre= https: //sa0. EER com/SaVib jah O230d0f/static/superman/ime/logo top ca79al46. png” alt="SIQ ER 
页 ”+itle=“ 到 百 谨 首页 > </a><form name=f id-form actior=/s class=fm 
onsubmi t=" javascript:F. call ( ps/sug’,’ pssubmit’ );”><span id=s_kw_wrap class="bg s_ipt_wr”><input 


type=text class=s_ipt name=wd id=kw maxlength=100 autocomplete =off></span><input type=hidden 
name=rsv_spt value=1><input type=hidden name=rsv_iqid value=" 0xdfd62F9000024c74" ><input type=hidden 
name=issp value=l ><input type=hidden name=f value=é ><input type=hidden name=rsy_bp value=0><input 
type=hidden name=rsv_idx value=2><input type=hidden name=ie value= A ees type=hidden neame=rql ang 


were 


value=" "><input_type=hidden name=itn valu ezaba iduhome pe s ="btn wr s btn wr bg” 
class=tools><span 1d= 

href=" javascript:;” name=ime “mE addi dea h re fe” javascript:;” name~ime._py>BtE (/ad<1i class=ln> 
<li><a href=" javascript:: K REER a T aes ae class=bd_bear_home></span? </span> 
</form> </div> </div> din id=u><a class=toindex href= QE R</a><spm class=toindex></span>4a 
i&imsg href="http: ww. baidu. com/#” onmousedown="return 

user_c({ fm :’ set’, * tab’ :°imsg’,’ login’ :’ 1° }) "279 B </a><a href=" javascript: ;” name=tj_settingicon 
class=pf) 设 置 <i class=“c-icon c-icon-triangle-down”></i></a><oa bref=http://i. baidu. com id-user 


8-14 搜索 submit 按键 


从 图 8-14 可 看 出 ，submit 按键 有 id, class 属性 ， 可 以 用 find element by class name 和 
find element by id 定位 。 执 行 命令 : 
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执行 结果 如 图 8-15 所 示 。 


权 所 有 <c> 2689 ees ‘Corporat leds 保留 所 有 权利 。 
:sers\king>python 


AMD64>] on win32 

ype “help”, “copyright”, “credits” or “license” for more information. 
>>> from selenium import webdriver 

>>> browser = webdriver.PhantomJdS <)> 

>>> browser.get¢’ https://www.baidu.com’ > 

>>> browser. implicit ly_wait<1@> 


8-15 ”获取 搜索 结果 
此 时 browser 已 经 获取 到 了 搜索 的 结果 了 。 


8.3.3 ”获取 有 效 数 据 位 置 


第 三 步 获 取 “ 有 效 数 据 ” 位 置 或 者 说 是 element。 先 定位 搜索 结果 的 标题 和 链接 。 回 到 
Chrome Ù iis, ZEA REIL Pyton selenium， 在 搜索 结果 页 面 中 查看 源 代码 。 因 为 Chrome 
i as Al PhantomJS 浏览 占 返 回 的 结果 可 能 有 所 不 同 ， 这 里 只 需要 知道 返回 结果 的 大 致 结 
构 ， 不 需要 完全 一 致 。Chrome 浏览 器 返回 结果 如 图 8-16 所 示 。 

€ > C | https://www.baidu.com/s?wd=python%20selenium&usv_spt=18rsv_igid 


Baittae | python selenium 
Be HA PE ste 音乐 BR 视频 地 图 文库 更 多 » 


BEACH SHEA Fs 989 000-]- 
© ZUREA: ELAR 


SSltMmpPMahs: Aat ssh 

Selenium Python Bindings latest 1. Installation 2. Getting Started 3 Navigating 4 Locating 
Elements 5. Waits 6. Page Objects 7. WebDriver API 8... 
https://selenium-python_readth... ~ - BER - 评 们 


2. Getting Started 一 Selenium Python Bindings 2 documentation 
PSLAMAP Ras: 请 点 击 Mish 

from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = 
webdriver Firefox() driver get('http: www. python org’) assert 

selenium-python readih . ~ - AFER - 正夫 


201345712883 - pens Sere 我 立 前 写 过 一 个 长 茶 乌 学 习 自 动 
北 和 列 渤 少 系 烈 ,最近 学 python. 所 以 想 尝 十 一 下 selenium 的 在 ython 平 台 如 条 搭建 -还 
www.cnblogs.com/fnng/a... ~ - BE 8 - 838 床 评分 


8-16 Chrome 浏览 器 搜索 结果 
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打开 源 代 人 码 页 和 面 搜索 第 一 个 结果 的 标题 Selenium with Python， 如 图 8-17 所 示 。 


© > CC |8 view-source:https://www.baidu.com/s?wd=python%20selenium&rsv_spt=1EQ Yr @& O GY œ 


区 :上 
}” Selenium with Python 第 1 条 , 共 1 条 | 六 vix 


href = “http://www. baidu. com/link?url=N2Zv2Gbm-PgGppZdZCU0F 61vJE3 jvz0US-LAWBdShKNpc jEzWD- 
klykdaXZW9xGsjl6bf312ErCR_pcHZrUeX_” 


target="_blank” 


><emSelenium</em> with <em>Python< /em> — <em>Selenium</em> <em>Python</em> Bindings 2 ... </a> 

</h3><div class=" m > 查看 此 网 页 的 中 文 翻译 ， 请 点 击 &nbsp; <a href=“http : //aww. baidu. com/link? 
url=åjerUBZhxûu0xVb02yTge9F yZi ROBSK -JG-L2Xy2BBuGludStXOVHOj202hCXUT lwVZDq53v6xYcP_FA- 
YbAfN j6ybxK eR16z JWT REM 43ui_qs6-gd3vZ0WQ0_t cyAZXfBDC xykDG4KDyT9coxLdlhtR4LZcGF2- 
pML3LQhy_TCHO3KPmsxbf1Wm65r 08m3woxgDRZfMBQSYYDUSsirf2ZK” target="_blank” class="m” ) 翻 译 此 页 《</a>《/div> 
<div class="c-abstract c-abstract-en”><emSelenium</em> <em>Python</em> Bindings latest 1. 
Installation 2. Getting Started 3. Navigating 4, Locating Elements 5. Waits 6. Page Objects 7. 
WebDriver API 8...</div><div class="f13"><a target="_blank” href="http://www. baidu. com/link? 
人 _pcHzrUeX ”cla 一 一 
NORN i ation‘none: = j aa TT) nbsp: </ab<div | 
class= ES E Ala i : 下 一 一 
on Dindings TE : http: //aww. baldu. co vvbm gupp dZUUUF bl vJES jvzUUS- 
LAWBdShENpc jEzWD-k1 yk daXZW9 xGsj16b£312ErCR_pcHZrUeX_ ie is OA ie c-tip-icon”><i class="c-icon c-icon- 
triangle-down-g”></i></a></div><span class=”c-icons-outer”><span class="c-icons-inner”’></span> 


8-17 ”搜索 结果 定位 
在 这 里 发 现 了 一 个 比较 特别 的 属性 class="c-tools"， 在 代码 中 查找 这 个 属性 ， 如 图 8-18 所 示 。 


> C ee EUR 中 Om 


>2. Getting Started — <em>Selenium</em> <emPython</é a 
class= m > 查看 此 网 页 的 中 文 翻译 ， 请 点 击 &nbsp; <a href="http: / eee P 
url=_NET1TrwEsOsab81cBT9WAz5N57WTxgzFT eO0sFHbIQ] eqDd11757APTPohuNR70 gqCVhMkDDn0BJ yc8ZXq7iSZ1 2RZ7TEAkqDi 9e 
tShQDnCVUSU7 cX1XJF g 5wXcB7ZO0k8VnF NP] 8CXpCx1lne-3fYze-aie]- 

9tab2uwJOYi KKERbGZvV5muHA_ozu_NPnR1 D2dI deSdeAShfFXBkOy_q5H2zNsGJShCqAtSatfUbkhDh?” target="_blank” 
class=" m ;翻译 此 页 《</a>》《/div>《div class="c-abstract c-abstract-en”> from <em>selenium</em> import 
webdriver from <em>selenium</em>. webdriver. common. keys import Keys driver = webdriver. Firefox() 

driver. get (&quot ; http://www. <em>python</em>. org&quot;) assert...</div><div class="f13”"><a 
target="_blank” href=“http: //aww. baidu. com/link? 

url= 人 HyKwO9z?nHJntDr?_ ting A ty ee 
Gme SGxF qe = ” style=” text-decoration: none; ”><b>seleniungb ohan sih g 8 
</a><div i d="tools_20728587 4087466813_2” data-tools= 
Selenium Python Bindings 2 documentation”, “url”:“http://aww. baidu. com 

url=i9ZdmooY9yPKbhl wpN5J91vHr71Zillyye06_HyKwO9z7nHJntDr7_3nTAzehfnl2qcwGBb q81KEwyr Saqf930JGlragnaDkwhw 
GmeSGxFq”}’ ><a class="c-tip-icon”><i class=”"c-icon c-icon-triangle-down-g”></i></a></div><span 
class="c-icons-outer’><span class=” c-icons-inner”></spam></spam&nbsp; -énbsp;<a dat a-click=” 

l rsv_snapshot’ :’1’ }” href="“http://cache. baiducontent. com/c? 

m=9f65cbh4a8 c8507ed4 fece7631 05780384 e08db246 3c0d0633 d9fd512ce384c413026b4e87 1644a5385982d261 6af3e0laaa52 
b27604566eccT9d9f4aabfad47b6fce7 062671 cf11b548c47bb 8elb6597 2Fd21 laf f544bbadf043d2F98c84830F1 495&p=8 9769 


8-18 4 class 属性 


发 现 共有 10 个 结果 ， 并 且 第 二 个 搜索 结果 的 标题 和 搜索 页 面 中 第 二 个 搜索 结果 相同 ， 再 
数 一 数 百度 搜索 结果 页 面 中 总 共 10 个 结果 。 可 以 确定 所 有 的 搜索 结果 中 都 包含 有 class="c- 
tools" 标 签 ， 可 以 用 find elements by class name 定位 所 有 的 搜索 结果 了 。 执 行 命令 : 


执行 结果 如 图 8-19 所 示 。 
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C:\Windows\system32\cmd.exe - python 


=: Wsers \king>python 

Python 2.7.11 (v2.7.11:6d1b6a68fF775. Dec 5 2015. 28:486:3@> [MSC v.1588 64 bit < 
AMD64)1] on win32 
Type “help”. “copyright”. “credits” or “license” for more information. 
>>> from selenium import webdriver 
>>> browser = webdriver.PhantonJ$ (> 
>>> browser.get<¢’ https ://www.baidu.com’ > 

browser.implicitly wait<«1@> 


textElement = browser.find_element_by_class_name(¢’s_ipt’ > 
textElement .send_keys¢’ Python selenium’ > 


submitElement = browser.find_element_by_id¢’ su’ > 
submitElement .click<«> 


>>> print browser.title 


= selen iun GEHE 


8-19 ”定位 搜索 结果 


i | ”这 里 使 用 的 是 find elements, %7 Æ find element。 定 位 多 个 结果 时 用 elements. | 


一 般 来 说 定位 结果 用 find element by xpath 或 find element by css 比较 方便 ， 但 如 果 结 
果 中 有 特殊 的 属性 ， 用 find element by class name 也 挺 好 ， 哪 个 方便 就 用 哪 一 个 。 


8.3.4 ”从 位 置 中 获取 有 效 数 据 


有 效 数 据 的 位 置 确 定 后 ， 如 何 从 位 置 中 过 滤 出 有 效 的 数据 呢 ? 一 般 就 是 获取 element 的 
文字 或 者 获取 Element 中 某 个 属性 值 。Selenium 有 目 己 独特 的 方法 ， 分 别 是 : 


回 到 Chrome 浏览 占 搜 索 结果 的 源 代码 页 面 ， 如 图 8-20 所 示 。 


> © view-source: ait atc dab baidu. com/s?wd= python%20selenium&rsv_spt=1EQ Vy @& O GY oo 
D ohy_ I HUSKPmSXB 名 S1 

<div class=”c-abstract 下 mace T faa <em>Px lass="c-tools" 第 1 条 , 共 10 条 
Installation 2. Getting Started 3. Navigating 4. Locating Elements 5. Waits 6. Page Objects 7. 
WebDriver API 8...</div><div class="f13”><a target="_blank” href="http://waw. baidu. com/link? 


url=N2Zv2Gbm-PgGppZ deCUOF 61 vJES jvzOUS-LAWBdShKNpc jE zWD-k1 yk daX2W9xGsj16bf51 2ErCR_pcHZrUeX_” class="c- 
showurl” style="text-decoration:none; ”>https: //<b>selenium</b>—<b>pythan</b >. readth. .. &nbsp ; </a><div 
class="c-tools” {| i=" foots e 1” data-tools= {"title”’:”Selenium with Python — Selenium 
Python Bindings 2 ， 5 / som baid om link’? 二 bm en d/l LOE RAN | [一 
LAWBdShK Npe ENE ENAERE 16bf312ErCR pcHizrUex <a class= c-tip-icon ><i cl ass= c-icon c-icon- 


8-20 有效 数据 
所 需 的 有 效 数 据 就 是 data-tools 属性 的 值 。 执 行 命令 : 
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print valueDic.get (‘title’) .decode(‘utf8’ ) 
print valueDic.get (‘url’) 


执行 结果 如 图 8-21 所 示 。 


>>> value = resultElements(@].get_attributeC’ data-tools’ > 

>>> valueDic = eval¢Cvalue> 

>>> print valueDic.get<¢’title’ >.decode¢’ ut f8’ > 

Selenium with Python — Selenium Python Bindings 2 ... 

>>> print valueDic.get¢’url’> 

http://www. baidu.com/Llink?url1=6Te@ygsF8h?9uDPrYMI muUf ItxjOgM@iBpxGMPxpEircekZgzUt 
Av 7FwuilDf BlJeO3wpT jZKRra3QG2Y p_YeLga 

>>> 


图 8-21 获取 有 效 数 据 


Wi J resultElements 列表 ， 可 以 获取 所 有 搜索 结果 的 title Al ul. Blt, GK 
Selenium&PhantomJS 爬虫 运行 了 一 过 。 根 据 这 个 过 程 可 以 编写 一 个 完整 的 爬虫。 


©. .©. Selenium&PhantomJS 实战 一 : 获取 代理 


用 Selenium&PhantomJS 完成 的 网 络 爬 虫 ， 最 适合 使 用 的 情形 是 爬 取 有 JavaScript 的 网 
站 ,但 用 来 假 其 他 的 站 点 也 一 样 给 力 。 在 Scrapy 疏 虫 中 曾 谎 取 过 代理 服务 器 的 例子 ， 这 里 再 
以 Selenium&PhantomJS 爬 取代 理 服务 需 为 示例 ， 比 较 两 者 有 什么 不 同 。 


8.4.1 准备 环境 
在 Scrapy 爬虫 中 获取 了 人 代理， 需要 目 行 验证 代理 是 否 可 用 。 这 次 将 在 www.kuaidaili.com 
中 获取 已 经 验证 好 了 的 代理 服务 器 。 打 开 有 目标 站 点 主页 ， 如 网 8-22 所 示 。 


€ > @  wwwkuaidaili.com wv & 


A MECHSE 5E2000: FRSE , HERS 


ARRE o 购买 代理 ”开放 代理 。 私密 代理 亲 AFRE 代理 提取 
为 什么 使 用 快 代理 ? 


我 们 不 间断 地 运行 着 极其 高 效 、 精 准 的 公 网 代理 收集 系统 ， 每 天 扫 撕 的 代理 数 以 万 计 ， 最 新 出 现 的 代理 总 能 在 第 一 时 间 收 录 。 
我 们 精确 地 检测 每 一 个 代理 JP 的 匿名 度 、 响 应 时 间 、 数 据 传输 速度 、 地 域 、 运 营 商 ， 平 均 每 个 Ip 每 天 被 检测 上 百 次 ， 因 此 你 咎 
找到 可 以 正常 工作 的 代理 。 


我 们 提供 了 极其 丰 豆 的 代理 径 选 和 AP] 接 口 ， 只 为 更 使 捷 地 操 取 。 


masa 142051087 suas amaan: 4328 


免费 高 速 HTTP 代 理 IP 列 表 ( 2016-09-10 ) 
匿名 度 ”类 型 get/post 支 持 位置 


222.210.96.133 8998 名 HTTP, HTTPS GET, POST 中 国 四 川 衣 成 都 市 电信 


图 8-22 目标 主页 
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最 终 需 要 获取 的 有 效 数 据 就 是 代理 服务 器 。 从 图 中 可 以 看 出 网 站 也 给 出 了 API 接口 。 从 
好 的 方面 想 ， 有 现成 的 API 接口 获取 代理 服务 器 会 更 加 方便 ; 但 从 坏 的 方面 考虑 ， 因 为 本 入 
就 有 API 接口 ， 那 么 限制 朴 虫 恐怕 就 更 加 厉害 了 。 

单 击 API 接口 的 链接 查看 一 下 ， 如 图 8-23 Ara. 


€ > Œ www.kuaidailicom/apidoc/ 


</proxylist> 
</data> 
<fresult> 


异常 返回 格式 样 例 : 


<?xml version="1.0° encoding=“UTF-8°?> 
<result> 

<code>-1</code> 

<msg> 参 数 错 误 </msg》 


<data> 
</data> 
</result> 


2. 大 多 数 业务 每 分 钟 或 每 几 分 钟 调用 一 次 即 可 满足 需要 
3. 一 次 调用 只 取 本 次 调用 需要 的 代理 ip 数量 ， 取 完 马 上 使 用 。 一 次 取 太 多 到 用 时 可 能 失效 
4. 请 设置 合理 的 第 选 条 件 ， 准 确 第 选 您 要 的 代理 ip 


图 8-23 API 限制 条 件 


还 好 ， 限 制 的 条 件 不 多 ， 无 须 添加 复杂 的 反 息 虫 。 下 和 面 准 备 息 虫 项 目 环 境 ， 打 开 Putty, 
连接 登录 到 Linux, VEAMEHIMA ASK, Pare: 


执行 结果 如 图 8-24 所 示 。 


Using username "king". 

Authenticating with public key "imported-openssh-key" 

The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 


individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 


permitted by applicable law. 

Last login: Sat Sep 10 21:36:18 2016 from 192.168.2.99 
king@debian:~$ cd code/crawler/ 
king@debian:~/code/crawler$ mkdir seleniumProject 
king@debian:~/code/crawler$ cd seleniumProject/ 
king@debian:~/code/crawler/seleniumProject$ I 


图 8-24 准备 工作 目录 
下 面 就 可 以 在 该 目录 下 编写 爬虫 文件 getProxyFromKuaidaili.py。 
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8.4.2 ERRE 


【示例 8-1] getProxyFromKuaidaili.py 的 代码 如 下 : 


Python P28) Sea 


按 :wq 保存 结果 ， 再 将 之 前 项 目 中 用 到 过 的 myLog.py 复制 到 当前 目录 下 。 俘 看 当前 目 
录 ， 执 行 命令 : 


执行 结果 如 图 8-25 所 示 。 


king@debian:~/code/crawler/seleniumProject$ 
king@debian:~/code/crawler/seleniumProject$ tree 


getProxyFromKuaidaili.py 
myLog.py 


0 directories, 2 files 
king@debian:~/code/crawler/seleniumProject$ $ 


图 8-25 ”显示 目录 文件 


运行 朴 虫 文件 ， 执 行 命令 : 
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执行 结果 如 图 8-26 所 示 。 


12016-09-11 19:55:02,518 INFO king add proxy 114.227.56.8:8088 to list < 
2016-09-11 19:55:03,266 INFO king add proxy 163.125.158.72:9999 to lis 
t 

2016-09-11 19:55:04,018 INFO king add proxy 111.13.7.42:82 to list 
2016-09-11 19:55:04,750 INFO king add proxy 121.229.194.180:808 to lis 
t 

2016-09-11 19:55:05,715 INFO king add proxy 103.59.176.9:8080 to list 
2016-09-11 19:55:06,517 INFO king add proxy 36.47.198.31:8998 to list 
2016-09-11 19:55:07,327 INFO king add proxy 113.79.35.7:8118 to list 
2016-09-11 19:55:08,091 INFO king add proxy 114.96.219.246:808 to list 
2016-09-11 19:55:09,077 INFO king add proxy 119.29.65.202:80 to list 
2016-09-11 19:55:09,810 INFO king add proxy 115.29.170.58:8118 to list 


2016-09-11 19:55:09,882 INFO king add all proxy to proxy.txt 
king@debian:~/code/crawler/seleniumProject$ tree 


getProxyFromKuaidaili.log 
get Prox Ooms aidaili.py 
my+og.py 
myLog.pyc 

proxy.txt 
0 directories, 6 files 
king@debian: ~/code/crawler/seleniumProject$ i 


8-26 ”运行 爬虫 


这 里 的 getProxyFromKuaidaili.log 是 用 户 定义 的 日 志文 件 。Proxy.txt 是 最 终 得 到 的 结果 。 
Ghostdriver.log 是 运行 PhantomJS 的 日 志文 件 。 


8.4.3 代码 解释 


示例 8-1 这 个 爬虫 程序 本 身 并 不 复杂 。 第 6~7 行 是 导入 所 需 的 模块 ， 其 中 myLog 模块 是 
目 定 义 模块 ， 也 就 是 后 来 复制 到 当前 目录 的 myLog.py 文件 。 

第 10~17 行 定义 了 一 个 Item 类 。 这 个 类 的 作用 是 为 了 方便 装载 仆 虫 获取 的 数据 ， 基 本 包 
含 了 网 页 中 的 所 有 项 。 

第 19~67 行 定义 了 一 个 从 kuaidili 站 点 中 获取 proxy 的 类 。 这 个 类 包含 了 3 个 类 图 数 。 
getUrls 函数 用 于 返回 一 个 列表 ， 这 个 列表 包含 了 所 有 有 效 数 据 的 网 页 地 址 。getProxyList PA 
数 ， 从 网 页 中 获取 有 效 数 据 ， 并 保存 到 一 个 列表 中 。 最 后 的 saveFile 函数 ， 将 所 有 列表 中 的 
数据 保存 到 文件 中 。 


3. 5 Selenium&PhantomJS 实战 二 : SHINER 


Selenium&PhantomJS 可 以 说 专 为 JavaScript 而 生 。 从 前 面 的 项 目 中 已 经 熟悉 了 
Selenium&PhantomJS 的 用 法 。 下 面 开 始 用 Selenium&PhantomJS 获取 JavaScript 返回 的 数 
据 。 一 般 来 说 ， 网 站 上 用 JavaScript 返回 数据 ， 主 要 是 为 了 美观 ， 第 二 目的 估计 就 是 为 了 增 
加 疏 虫 的 难度 。 这 里 只 是 讨论 技术 实现 的 手段 ， 请 章 循 “不 作恶 ”原则 ， 不 要 侵犯 他 人 的 知 
识 产权 。 
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8.5.1 准备 环境 


一 般 来 说 在 线 看 漫画 的 网 站 都 会 使 用 JavaScript 来 返回 页 面 。 在 Chrome 中 打开 百度 搜 
索 ， 搜 索 在 线 漫画 ， 如 图 8-27 所 示 。 


C https://www.baidu.com/s?wd= 在 堵 漫 男 &rsv_spt=1&rsv_iqid=0xd031e0df00( 信 T| A 


oe 
e mE 
Bai 百度 在 线 漫画 
网 页 A 
特 度 为 您 找到 相关 结果 和 幻 19,100,000 个 


Ovmes tain 


ir eae 本 站 所 有 漫画 均 来 源 于 网 络 A 
Per 干 漫画 的 版 权 归 原 漫画 作者 让 TT 
区 的 内 容 ,请 发 邮件 ikuimao#. 
comic.kukudm.com/ ~ - 百度 快照 - 34 条 评价 


Pen SEAMEN papitata 最 专业 全 ki 
ERSE AEE BERRA- 


8-27 寻找 目标 站 点 


第 一 个 搜索 结果 已 经 很 明确 地 提出 了 “ 茶 止 下 载 ”， 那 就 复 了 ， 吏 找 第 二 个 好 了 。 打 开 
第 二 个 搜索 结果 ， 如 图 8-28 所 示 。 


œŒ [D www.1kkk.com 


= 热门 漫画 : Razer PEE SRMF RWANDA - 
EET 


KKK.COM 极速 漫画 提醒 : 请 输入 您 要 搜索 


首页 | 今日 更 新 | 原创 精品 | 少年 热血 RERS | 少女 爱情 | 科幻 魔幻 | 竞技 体育 爆笑 喜剧 


@) 原创 精品 


e 4 r 
重 返 地 平 线 [第 2 回 ] 神话 战线 [第 5 回 ] 再 造 空间 [第 42 回 ] BEE)? [ 第 41 回 ] 
最 近 更 新 : 2016-09-10 下 回 更 新 : 2016-09-09 最 近 更 新 : 2016-09-09 最 近 更 新 : 2016-09-08 


ise aligned 
> i> 5 
N 分 二 eh Peas 


8-28 选取 目标 
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任 选 一 个 目标 都 可 以 ， 这 里 选取 第 一 个 漫画 。 打 开 漫 男 浏 览 页 面 ， 如 图 8-29 所 示 。 
Q $ 


www.1kkk.com/ch1-406302/ 


极速 体验 自 适应 宽度 《鼠标 堪 汗 放大 》 LAASTAS] 


图 8-29 EREM 


这 个 爬虫 将 在 Windows 下 使 用 Eclipse 完成 。 打 开 Eclipse， 新 建 PyDev Project, m H% 
为 getCartoon. 


8.5.2 ERRES 
在 getCartoon 项 目 中 创建 一 个 PyDev Module, 4X cartoon|.py. 


【示例 8-2 】cartoon1.py 的 代码 如 下 : 


#!/usr/bin/evn python 
#-*- coding: utf-8 -*- 


Created on 2016 年 9 月 10 日 


上 


@author: hstking hstking@hotmail.com 


wow OA nO & W DN 


from selenium import webdriver 
from mylog import MyLog as mylog 
import os 


ao 
e oO 


12 import time 

13 

14 class GetCartoon (object): 

13 def init (self): 

16 self.startUrl = u'http://www.1kkk.com/ch1-406302/' 
a self.log = mylog() 

18 self.browser = self.getBrowser () 
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再 将 之 前 项 目 中 的 mylog.py 复制 到 项 目 中 (Linux 中 复制 的 是 myLog.py， 实 际 上 是 一 个 
文件 ， 只 不 过 Windows 下 不 区 分 大 小 写 而 已 )。 单 击 Eclipse 图 标 栏 的 运行 图 标 ， 执 行 结果 如 
8-30 所 示 。 
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#88 Selenium 模拟 浏览 器 


File Edit Source Refactoring Navigste Search Project Pydev Run Window Help 
Jee OGG Pr ey Gro. 


jë PyDev Package... 3 cattoonl 33 


= 
tard | 2, 
= >" 


= 一 9° from selenium import webdriver 
, & ERFS18H 1@ from mylog import MyLog as mylog 
=| cattoon1.log L import os 


i t ti 
» P) cattoonL.py ssl zz 


B ghostdriver.log 45 class GetCartoon(object): 

P) mylog. 1 def _ init__(self): 

上 = a Files h self.startUrl = u'http://www. Ikkk. com/ch1-40630 
DErogram (es\eyinen self.log = mylog() 

baiduBS4 8 self.browser = self.getBrowser( ) 


browserSpeed = self.saveCartoon(self.browser) 
self. browser. quit(]) 


getBulletin 
helloPython 
MechanizeAndBs4 
moiveBS4 
qidianBS4 
seleniumBaiduNews 


def getBrowser(self): 
browser = webdriver.PhantomJ5() 
try: 
browser.get(self.startUrl) 
except: 
mylog.error( ‘o the %s fail 
z browser .inplicitly wait(28) 
LJ winningNumBS4 4 | i" 


UD YinyueTaiBS4 


UAWN 


Cn 


NO 
N 


FECRCECEBEE-: 


wo œ 


test 


N 


© Console & RA 
<terminated > E:\save\sync\code\crawler\bs4Project\getCartaon\cattoonl 
2016-09-11 20:13:58,088 INFO king save img 25.png 


2016-09-11 20:14:05,019 INFO king save img 26.png 


2016-09-11 20:14:10,151 INFO king save img sccess 


4 | Mh 


i 1 item selected 


8-30 运行 爬虫 getCartoon1 


日 总 文件 显示 操作 成 功 。 项 目 中 也 得 到 了 漫画 的 目录 。 打 开 下 载 的 漫画 目录 ， 如 图 8-31 


所 示 。 
| soe EE 


(E:) save » sync » code » crawler » bs4Project » getCartoon » 重 反 地平线 1 漫画 


IST) 帮助 (H) 
共享 放映 幻灯 片 i 


图 8-31 获取 的 结果 
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最 终 保 存 的 结果 不 是 单纯 的 漫画 ， 而 是 整个 页 面 的 截图 。 


8.5.3 代码 解释 


示例 8-2 KANE IME, A 60 多 行 。 第 9~12 行 是 导入 所 需 的 模块 。 第 14~58 TEER 
类 ， 这 个 爬虫 类 只 有 3 个 类 函数 。 

第 22~29 行 是 类 图 数 getBrowser 的 原型 ， 它 的 作用 是 返回 一 个 browser 对 象 。 这 里 稍微 
要 注意 点 的 就 是 browser.implicitly wait(20)， 它 的 作用 设 定 了 智能 等 待 的 最 长 时 间 。 

第 31~47 行 是 类 图 数 savaCartoon。 这 个 函数 将 从 网 站 中 获取 图 片 ， 并 保存 到 新 建立 的 文 
件 夹 中 。 文 件 夹 的 名 字 是 从 网 页 的 title 中 获取 的 。 从 网 页 中 获取 了 这 个 漫画 的 总 页 数 ， 因 为 
这 个 漫画 在 最 后 一 页 〈 第 26 页 ) 还 是 有 “下 一 页 ”的 按钮 。 没 办 法 通过 是 否 存 在 “下 一 页 ” 
按钮 来 确定 是 不 是 最 后 一 页 。 所 以 必须 得 先 获 取 这 个 漫画 的 总 页 数 。Seleniuim&PhantomJS 
解释 了 页 面 的 JavaScript， 也 将 解释 后 得 到 的 图 片 显示 在 浏览 器 上 了 。 但 这 个 站 点 在 防盗 链 上 
做 得 很 到 位 ， 只 要 在 页 面 上 执行 一 次 刷新 操作 ， 网 站 吏 判 为 盗 链 ， 显 示 出 防止 盗 链 的 图 片 出 
来 ， 并 且 得 到 的 图 片 链接 地 址 也 无 法 下 载 ， 所 以 最 简单 的 方法 就 是 对 整个 页 面 进行 截图 。 好 
在 Selenium ARAMA LCA, ROT. Fb, Æ NextTag.click0 之 后 使 用 的 并 不 是 
Selenium 的 智能 等 待 implicitly wait， 而 是 time.sleep 。 是 因为 implicitly wait 对 
NextTag.clickO 并 不 起 作用 ， 反 而 使 用 time.sleep 的 效果 却 很 不 错 。 

第 49~58 行 是 类 函数 createDir， 作 用 是 创建 一 个 目录 。 为 了 防止 有 同名 的 目录 ， 先 在 函 
数 内 作出 判断 。 

这 个 爬虫 虽然 将 漫画 全 部 保存 下 来 了 ， 但 也 把 页 面 上 多 余 的 部 分 保存 了 。 上 略 有 环 疲 ， 如 
果 想 追求 完美 ， 也 可 以 通过 其 他 的 模块 将 所 需 的 漫画 裁 甬 下 来 。 


本 章 总 结 
Selenium&PhantomJS 疏 虫 功能 很 串 ， 但 效率 上 并 不 高 。 对 访问 者 限制 不 严格 的 网 站 ， 一 


般 不 建议 使 用 Selenium&PhantomJS EH. (MAEM ASHE JavaScript 返回 有 效 数 据 的 网 
wi, Selenium&PhantomJS 爬虫 效果 还 不 错 ， 也 可 能 是 最 好 的 选择 了 。 
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